大模型AI芯片更需要片间互联,德州仪器TI算力越强模型效率越高

来源:时间: 2024-10-22新闻中心

大模型AI芯片更需要片间互联,德州仪器TI算力越强模型效率越高

FPGA全球市场呈现“两大两小”格局,Altera与Xilinx市占率共计超80%,Lattice和Microsemi市占率共计超10%;处于国际中端水平,仍需进一步突破。工艺制程方面,当前国产厂商先进制程集中在28nm,落后于国际16nm水平;在等效LUT数量上,国产厂商旗舰产品处于200K水平,仅为XILINX高端产品的25%左右。ASIC不同于CPU、GPU、FPGA,目前全球ASIC市场并未形成明显的头部厂商,国产厂商快速发展;通过产品对比发现,目前国产厂商集中采用7nm工艺制程,与国外ASIC厂商相同;算力方面,海思的昇腾910在BF16浮点算力和INT8定点算力方面超越Googel最新一代产品TPUv4,遂原科技和寒武纪的产品在整体性能上也与Googel比肩。未来国产厂商有望在ASIC领域继续保持技术优势,突破国外厂商在AI芯片的垄断格局。算力精度门槛下,ASIC和GPGPU是最适合大模型的架大模型云端训练多数情况下都在FP32计算精度上,推理端则以FP16和混合精度为主。德州仪器TI算力越强,模型效率越高。FPGA和GPU对比,虽然FPGA吞吐率、性能功耗比优于GPU,但是FPGA存在两个天然缺陷,FPGA只适合做定点运算,不适合做浮点运算,如果用来做浮点运算耗费逻辑很大,而且有些FPGA不能直接对浮点数进行操作的,只能采用定点数进行数值运算。FPGA可以理解成某种“芯片半成品”,需要开发人员做大量二次开发设计芯片,因此开发使用门槛较高。ASIC和GPU则能够满足大模型的入门门槛。AI大模型让ASIC和GPU之间的边界愈发模糊,国内GPU初创企业或在竞争中落后英伟达在过去很长的一段时间内坚持用统一的硬件,即通用型GPU同时支持DeepLearning和图像需求。但高性能计算迭代到H100产品后,其计算卡和图像卡分开,在技术路线上也愈发靠近ASIC。初创企业为了实现通用性,选择了在芯片设计和制造供应链存在较多困难的GPU路线,暂未推出真正具备量产成熟度的产品。英伟达A800、H800对国产厂商存在一定的威胁,但在大模型趋势下,英伟达的优势有所弱化。过去,机器学习训练时间的主导因素是计算时间,等待矩阵乘法,通过张量核心和降低浮点精度,这个问题很快被解决。现在大型模型训练/推理中的大部分时间都是在等待数据到达计算资源。内存带宽和容量的限制不断出现在NvidiaA100GPU,如果不进行大量优化,A100往往具有非常低的FLOPS利用率。而800系列降低了数据传输速率,弱化了英伟达高算力的优势,大模型AI芯片更需要片间互联、HBM,英伟达CUDA这种标准化平台的优势同样有所弱化。


电话

185 0303 2423

微信

咨询

置顶