来源:时间: 2024-10-24
深度学习框架和英伟达AI芯片的高度耦合,,德州仪器TI芯片投入巨大工程量
由于各家AI芯片厂商编程语言无法兼容,德州仪器TI深度学习框架厂商仅支持一家AI芯片就要投入巨大工程量,因此导致其最终只选择市占率最大的1-2家进行深度支持,英伟达在AI训练和推理上实现了软硬件高度耦合而构筑了极高的生态壁垒。英伟达高性能训练和推理芯片产品主要包括V100、A100、H100以及3月21日GTC2023发布的H100NVL(2张H100通过外部接口以600GB/s的速度连接,每张卡显存为94GB合计为188GB),预计2024年将推出基于下代Blackwell架构的B100产品。除上文提到的软件及生态壁垒外,芯片的主要优势在于大片上内存、高显存带宽以及片间互联方案。2022年9月起,美国禁止峰值性能等于或大于A100阈值的英伟达芯片向中国出口,合法版本A800、H800已在国内应用。由于中国高性能计算市场对英伟达来说是一个不可放弃的巨大市场,英伟达分别于22年11月、23年3月发布A100、H100的“阉割”版本A800、H800,通过降低数据传输速率(显存带宽)至400GB/s、450GB/s避开美国限制,从而合法出口到中国,根据CEO黄仁勋在GTC2023演讲,H800已在国内BAT的云计算业务中应用。寒武纪:复制英伟达成长之路寒武纪芯片硬件性能相比于英伟达还有追赶空间,上层软件堆栈与英伟达相似,全自研不是兼容路线;不同之处在于寒武纪需要自己对原生深度学习框架进行修改以支持思元芯片,而英伟达有谷歌原厂支持。硬件方面,从一些表观的性能参数对比来看,寒武纪训练芯片思元290和英伟达A100、昇腾910相比性能还有追赶的空间。软件方面,寒武纪是自己对原生的Tensorflow和Pytorch深度学习框架去针对自己的思元芯片去做修改而非像华为一样自研深度学习框架去进行优化,也不像英伟达一样因为芯片市占率高,有Pytorch/Tensorflow原厂去做GPU算子的优化和设备的支持。另外寒武纪相比英伟达的算子库丰富程度以及软件工具链的完善程度还有一定差距,需要时间去追赶。