芯片设计大规模片上内存脉动式内存访问8位低精度运算，德州仪器TI深度学习框架+AI芯片自研-德州仪器TI|德州仪器半导体|德州仪器芯片|德州仪器TI代理商

芯片设计大规模片上内存脉动式内存访问8位低精度运算，德州仪器TI深度学习框架+AI芯片自研

来源：时间： 2024-10-24

芯片设计大规模片上内存脉动式内存访问8位低精度运算，德州仪器TI深度学习框架+AI芯片自研

AMD部分兼容英伟达CUDAAMD选择了部分兼容英伟达CUDA，借力英伟达生态的路线。AMD在2016年全球超算大会上推出了ROCm，也就是对标英伟达CUDA一样的智能编程语言，ROCm软件堆栈的结构设计与CUDA相似度很高；对标英伟达深度学习库cuDNN，AMD推出了MIOpen；对标英伟达深度学习推理框架TensorRT，AMD推出了Tensile；对标英伟达编译器NVCC，AMD推出了HCC。ROCm中包含的HIPify工具，可以把CUDA代码一键转换成ROCm栈的API，减少用户移植成本，走兼容英伟达CUDA的路线其难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容。1）迭代永远慢一步：英伟达GPU在微架构和指令集上迭代很快，在上层软件堆栈上很多地方也要做相应的功能更新；但是AMD不可能知道英伟达的产品路线图，软件更新永远会慢英伟达一步（例如AMD有可能刚宣布支持了CUDA11，但是英伟达已经推出CUDA12了）。2）难以完全兼容反而会增加开发者的工作量：像CUDA这样的大型软件本身架构很复杂，AMD需要投入大量人力物力用几年甚至十几年才能追赶上；因为难免存在功能差异，如果兼容做不好反而会影响性能（虽然99%相似了，但是解决剩下来的1%不同之处可能会消耗开发者99%的时间），“深度学习框架+AI芯片”自研，谷歌凭借Tensorflow去做TPU相对而言不存在太多生态壁垒问题，但是仍然无法撼动英伟达，其原因在于TPU本身性能还有进一步提升空间以及过于专用的问题。理论上谷歌凭借Tensorflow在深度学习框架领域实现了垄断地位，是具备绝对的生态掌控力的，会投入大量的Tensorflow工程师针对自家TPU去做支持和优化，因此TPU去挑战英伟达GPU其实不存在所谓生态壁垒的问题。推出第一代TPUv1至今已经到第四代TPUv4（2021年5月发布），仍然无法从英伟达手中抢走明显份额，其原因主要在于TPU本身性能相比于英伟达同时期GPU而言还有一定差距，另外其芯片设计过于专用所以在卷积之外的算法表现上并不算好。德州仪器TI在芯片设计上的实力和英伟达相比还有一定差距谷歌在TPU论文中也明确提到由于项目时间比较紧，所以很多优化只能放弃。从性能参数来看谷歌TPUv2和英伟达同年推出的V100相比，性能功耗比、显存带宽等指标有着明着差距，即使是谷歌在2018年推出了第三代TPU，其性能（FP32）、功耗等指标仍然和英伟达V100相比存在一定差距。谷歌采用的是传统脉动阵列机架构，芯片设计上过于专用TPU的主要创新在于三点：大规模片上内存、脉动式内存访问、8位低精度运算。脉动阵列机做卷积时效果不错，但是做其他类型神经网络运算效果不是很好，在一定程度上牺牲了通用性来换取特定场景的高性能。TPU在芯片设计上只能完成“乘+加+乘+加......”规则的运算，无法高效实现“复数乘法、求倒、求平方根倒数”等常见算法。

上一篇：深度学习训练框架要想打破Tensorflow和Pytorch，德州仪器TI深度学习框架生态掌控力下一篇：深度学习框架和英伟达AI芯片的高度耦合，，德州仪器TI芯片投入巨大工程量

返回列表

芯片设计大规模片上内存脉动式内存访问8位低精度运算，德州仪器TI深度学习框架+AI芯片自研

相关推荐

集成电路（IC）是芯片（Chip）里面一个核心的部件，德州仪器TI半导体集成电路芯片

对晶圆表面进行改造的办法就是光刻，德州仪器TI硅基半导体被称为p型半导体

共用电子对的结构称为共价键(covalent bonding)，德州仪器TI晶圆如何被生产出来

物体按照导电性大致可分为三类：导体、半导体、绝缘体，德州仪器TI什么是半导体