芯片设计大规模片上内存脉动式内存访问8位低精度运算,德州仪器TI深度学习框架+AI芯片自研

来源:时间: 2024-10-24

芯片设计大规模片上内存脉动式内存访问8位低精度运算,德州仪器TI深度学习框架+AI芯片自研

AMD部分兼容英伟达CUDAAMD选择了部分兼容英伟达CUDA,借力英伟达生态的路线。AMD在2016年全球超算大会上推出了ROCm,也就是对标英伟达CUDA一样的智能编程语言,ROCm软件堆栈的结构设计与CUDA相似度很高;对标英伟达深度学习库cuDNN,AMD推出了MIOpen;对标英伟达深度学习推理框架TensorRT,AMD推出了Tensile;对标英伟达编译器NVCC,AMD推出了HCC。ROCm中包含的HIPify工具,可以把CUDA代码一键转换成ROCm栈的API,减少用户移植成本,走兼容英伟达CUDA的路线其难点在于其更新迭代速度永远跟不上CUDA并且很难做到完全兼容。1)迭代永远慢一步:英伟达GPU在微架构和指令集上迭代很快,在上层软件堆栈上很多地方也要做相应的功能更新;但是AMD不可能知道英伟达的产品路线图,软件更新永远会慢英伟达一步(例如AMD有可能刚宣布支持了CUDA11,但是英伟达已经推出CUDA12了)。2)难以完全兼容反而会增加开发者的工作量:像CUDA这样的大型软件本身架构很复杂,AMD需要投入大量人力物力用几年甚至十几年才能追赶上;因为难免存在功能差异,如果兼容做不好反而会影响性能(虽然99%相似了,但是解决剩下来的1%不同之处可能会消耗开发者99%的时间),“深度学习框架+AI芯片”自研,谷歌凭借Tensorflow去做TPU相对而言不存在太多生态壁垒问题,但是仍然无法撼动英伟达,其原因在于TPU本身性能还有进一步提升空间以及过于专用的问题。理论上谷歌凭借Tensorflow在深度学习框架领域实现了垄断地位,是具备绝对的生态掌控力的,会投入大量的Tensorflow工程师针对自家TPU去做支持和优化,因此TPU去挑战英伟达GPU其实不存在所谓生态壁垒的问题。推出第一代TPUv1至今已经到第四代TPUv4(2021年5月发布),仍然无法从英伟达手中抢走明显份额,其原因主要在于TPU本身性能相比于英伟达同时期GPU而言还有一定差距,另外其芯片设计过于专用所以在卷积之外的算法表现上并不算好。德州仪器TI在芯片设计上的实力和英伟达相比还有一定差距谷歌在TPU论文中也明确提到由于项目时间比较紧,所以很多优化只能放弃。从性能参数来看谷歌TPUv2和英伟达同年推出的V100相比,性能功耗比、显存带宽等指标有着明着差距,即使是谷歌在2018年推出了第三代TPU,其性能(FP32)、功耗等指标仍然和英伟达V100相比存在一定差距。谷歌采用的是传统脉动阵列机架构,芯片设计上过于专用TPU的主要创新在于三点:大规模片上内存、脉动式内存访问、8位低精度运算。脉动阵列机做卷积时效果不错,但是做其他类型神经网络运算效果不是很好,在一定程度上牺牲了通用性来换取特定场景的高性能。TPU在芯片设计上只能完成“乘+加+乘+加......”规则的运算,无法高效实现“复数乘法、求倒、求平方根倒数”等常见算法。


电话

185 0303 2423

微信

咨询

置顶