史上最大AI芯片诞生:462平方厘米、40万核心、1.2万亿晶体管,创下4项世界纪录

老黄恐怕也会自叹不如

晓查 发自 凹非寺

量子位 报道 | 公众号 QbitAI

史上最大AI芯片诞生:462平方厘米、40万核心,创下4项世界纪录

美国一家芯片公司Cerebras推出了史上最大AI芯片,号称“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)。

WSE将逻辑运算、通讯和存储器集成到单个硅片上,是一种专门用于深度学习的芯片。它创下了4项世界纪录:

  • 晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。
  • 芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。
  • 片上缓存最大:包含18GB的片上SRAM存储器。
  • 运算核心最多:包含40万个处理核心。

WSE由台积电代工,但是并没有使用当前最先进的7nm工艺,而是使用相对较老的16nm制程工艺制造。

台积电运营高级副总裁JK Wang表示:“我们对与Cerebras合作制造WSE非常满意,这是晶圆级开发的行业里程碑。”

虽然WSE制造成本可能很高,但Cerebras认为片上互连比构建和连接独立的内核速度更快、成本更低。

与其他芯片对比

WSE可以说是个庞然大物,一般的芯片都可以放在手掌心,而WSE面积比Mac的键盘还要大。官方在介绍这款芯片时,需要用双手捧着,和展示晶圆没什么两样。

史上最大AI芯片诞生:462平方厘米、40万核心,创下4项世界纪录

WSE面积比英伟达最大的GPU核心V100还要大56倍,V100核心的尺寸为815平方毫米,包含211亿个晶体管。

最近AMD为数据中心提供的Epyc 2芯片,也是世界上最快的x86处理器,也只有320亿个晶体管,数量仅为WSE的30分之一。

英特尔最新的桌面级处理器i9-9900k有16MB缓存,英伟达RTX 2080Ti有5.5MB二级缓存,在WSE 18GB缓存面前也是小巫见大巫。RTX 2080Ti已经堪称功耗怪兽,TDP为250W,而WSE则需要15千瓦的供电。

性能参数

WSE包含40万个对AI优化的计算核心,称为稀疏线性代数核心(SLAC),它灵活、可编程,并针对支持所有神经网络计算的稀疏线性代数进行了优化。

SLAC的可编程性确保内核可以在不断变化的机器学习领域中运行所有神经网络算法。

由于稀疏线性代数核心针对神经网络计算基元进行了优化,因此它们可实现业界最佳利用率,通常是GPU的3~4倍。此外,WSE核心包括Cerebras发明的稀疏性收集技术,加速深度学习这类稀疏工作负载的计算性能。

零在深度学习计算中很普遍。通常要相乘的向量和矩阵中的大多数元素都是零。然而乘以零会浪费计算资源。

史上最大AI芯片诞生:462平方厘米、40万核心,创下4项世界纪录

通常GPU和TPU被设计为永不遇到零的计算引擎,它们即使有零也会乘以每个元素。当深度学习中50-98%的数据为零时,大多数乘法都被浪费了。

由于Cerebras稀疏线性代数核心不会乘以零,所有零数据都会被滤除,并且可以在硬件中跳过,从而可以用着节约的资源去完成有用的工作。

内存是每个计算机体系结构的关键组件。更接近计算核心的缓存能带来更低的延迟和更好的数据移动效率。

高性能深度学习需要大量计算,并且频繁访问数据。这需要计算核心和存储器之间的紧密接近,但是在GPU中并非如此,大容量的显存并不在GPU核心上,而是外置的。

WSE片上的缓存达到了18GB,是GPU缓存的3000倍;可提供每秒9PB的内存带宽, 比GPU快10,000倍。

Swarm是WSE上使用的处理器之间的通信结构,它只用传统通讯技术功耗的几分之一就实现了突破性的带宽和低延迟。

Swarm提供低延迟、高带宽的2D网格,可连接WSE上的所有40万个核心,带宽为每秒100 petabits。WSE通信能量成本远低于每比特1pJ,这比图形处理单元低近两个数量级。

面临的问题

为何其他芯片厂商不制造如此大尺寸的芯片呢?这是因为在制造晶圆的过程中不可避免会有一些杂质,这些杂质会导致芯片的故障。

通常的做法是将一片很大的晶圆切割成若干个小片,从中挑选出其中可用的部分,封装成芯片,而将报废部分丢弃。

而Cerebras的芯片已经和晶圆面积差不多大了,是在一个晶圆上切割出一块大的芯片,制造过程中不可避免会产生缺陷。

为了解决缺陷导致良率不高的问题,Cerebras在设计的芯片时候考虑了1~1.5%的冗余,添加了额外的核心,当某个核心出现问题时将其屏蔽不用,因此有杂质不会导致整个芯片报废。

史上最大AI芯片诞生:462平方厘米、40万核心,创下4项世界纪录

Cerebras团队遇到的另外一个问题是芯片的刻蚀。今天的光刻设备仍然只能刻蚀面积较小的单个芯片。因此Cerebras与台积电合作发明了新技术,来处理具有万亿加晶体管芯片的刻蚀和通讯问题。

即使芯片制造成功,接下来还要面临三重挑战:热膨胀、封装和冷却。

Cerebras的芯片功率达15千瓦,与AI集群相当。给单个芯片提供巨大的功率,要考虑多方面的因素。

由于芯片在运行中会变得非常热,但是不同材料的热膨胀系数不同。这意味着将芯片与PCB的热膨胀系数不能差距太大,否则两者之间产生裂缝。

Cerebras在芯片上方安装了一块“冷却板”,使用多个垂直安装的水管直接冷却芯片。由于芯片太大而无法放入任何传统封装中,Cerebras还设计了结合了连接PCB和晶圆两者的定制连接器以及冷却装置。

关于Cerebras

史上最大AI芯片诞生:462平方厘米、40万核心,创下4项世界纪录

Cerebras公司由Sean Lie(首席硬件架构师)、Andrew Feldman(首席执行官)等人于2016年创立。后者曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

该公司在加州有194名员工,其中包括173名工程师,迄今为止已经从Benchmark等风投机构获得了1.12亿美元的投资。

参考资料:

Cerebras Systems unveils a record 1.2 trillion transistor chip for AI

https://www.pcworld.com/article/3432977/cerebras-systems-new-deep-learning-chip-is-as-big-as-your-keyboard-and-the-largest-ever.html

https://www.crunchbase.com/organization/cerebras-systems#section-overview

版权所有,未经授权不得以任何形式转载及使用,违者必究。