一块芯片比iPad还大，全球最大AI处理器刚刚更新了2代，A100看了会沉默

子豪 2021-04-21 13:06:25 来源：量子位

85万个核心，比A100多120倍

子豪发自凹非寺
量子位报道 | 公众号 QbitAI

还记得那个全球面积最大、整块芯片比键盘还大的AI超算处理器Cerebras WSE吗？

刚刚，这款芯片发布了2代。

作为第二代晶圆级引擎， WSE-2以2.6万亿个晶体管和85万个AI优化内核，再次刷新记录。

与一代WSE相比，WSE-2虽然在面积上没有变化（依然很大），二者看起来没什么差别。

但是，芯片的所有性能特征，包括：晶体管数、内核数、内存、内存带宽和结构带宽，均比一代增加了一倍以上。

有哪些升级？

2019年8月，Cerebras推出了尺寸破纪录的AI芯片——“晶圆级引擎”（Cerebras Wafer Scale Engine，简称WSE），其中包含1.2万亿个晶体管。

并且在2020年，展示了基于WSE的AI计算机CS-1，计算速度超Joule 200倍以上。

我们将WSE-2与一代，以及A100进行了比较：

可以看到，WSE-2有很大幅度的升级，采用了7nm制造工艺，多项数据都是一代的两倍之多。

比起英伟达的A100，WSE-2多了2.55万亿个晶体管；内核数是A100的123倍；缓存是其1000倍；可提供的内存带宽，则达到了A100的13万倍。

为什么采用大芯片？

据Cerebras官方网站介绍，

当今最先进的模型，需要几天或几周的时间进行训练，并且通常在数十、数百甚至数千个GPU上进行分布式训练，以使训练时间更可控。

这些庞大的处理器集群很难编程，并且面临通信和同步费用高的瓶颈。

而WSE-2将用于业界最快的AI计算机CS-2。

△Cerebras系统（图源：spectrum）

CS-2专门为加速AI应用而设计，旨在实现快速、灵活的训练和低延迟的数据处理，可以在更小的空间和更低的功耗下，提供更高的计算性能。

这使得CS-2拥有更高的计算密度、更快的内存和更高的带宽互连，从而将训练速度提升数个数量级、使推理的延迟更低，并且易于部署。

Cerebras芯片，将集群的AI计算和内存资源带到单个设备上，一个CS-2的性能相当于整个GPU集群的性能，同时具有单个设备的简单性。

CS-2在一个芯片上有85万个内核，提供了集群规模的速度，同时避免了通信缓慢的问题。

同时这也意味着，即使是最大、最复杂的ML模型，也不需要分布式训练或并行编程，因此能节省数周的模型调整和配置时间。

由于形成了最高带宽、最低延迟的通信结构，因此大型模型的实时推理延迟得以降低，无需量化、缩小规模和牺牲精度。

△Cerebras系统

晶圆级引擎的应用

此前，不少实验室与计算机中心已经部署了Cerebras WSE和CS-1。包括：

爱丁堡大学的超级计算中心，利用WSE进行自然语言处理、基因组学和COVID-19的相关研究。

在美国阿贡国家实验室（ANL），WSE被用于COVID-19研究、重力波检测和材料发现等；并且在癌症疗法研究中，使癌症模型的实验周转时间，减少了300倍以上。

制药企业葛兰素史克的高级副总裁金·布兰森，则表示：

其增加了生成的编码器模型的复杂性，同时将训练时间减少了80倍。

……

对于WSE-2的应用，

国际调研公司Tirias Research首席分析师Jim McGregor认为：

“显然，对用于大型数据集的Cerebras晶圆级解决方案，有些公司和实体很感兴趣。

但是在企业层面，还有数百万的其他AI应用，以及一些Cerebras不能处理的情况，这就是英伟达拥有SuprPod和Selene超级计算机的原因。

“与英伟达相比，Cerebras更像是一个小众平台，二者的广度无法相提并论。”

Moor Insights＆Strategy的分析师Patrick Moorhead也表示：

“ Cerebras确实提供了承诺的核心……

不过Nvidia解决方案更加灵活，几乎可以安装在任何服务器机箱中。”

参考链接：
[1]https://cerebras.net/
[2]https://venturebeat.com/2021/04/20/cerebras-systems-launches-new-ai-supercomputing-processor-with-2-6-trillion-transistors/
[3]https://spectrum.ieee.org/tech-talk/semiconductors/processors/cerebras-giant-ai-chip-now-has-a-trillions-more-transistors
[4]https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier
[5]https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247528016&idx=3&sn=dad6e7289a017a9c67398a7a646393b6&chksm=e8d0d922dfa75034ae26f22d4033bbf22620b966a3d40a07f8486337963c1a6e497eddbe520a&token=2091891750&lang=zh_CN#rd

子豪

一块芯片比iPad还大，全球最大AI处理器刚刚更新了2代，A100看了会沉默

有哪些升级？

为什么采用大芯片？

晶圆级引擎的应用

相关阅读

全球首款碳纳米管通用计算芯片问世！RISC-V架构，5倍于摩尔定律，Nature连发三文推荐

英伟达新核弹B200发布，一台服务器顶一个超算，AI推理30倍加速

清微智能CTO欧阳鹏：架构创新是通往高性能计算芯片必由之路｜量子位·视点分享回顾

小米澎湃芯片时隔4年再回归：一条未曾设想的道路

IDC：今年上半年中国GPU服务器市场规模8.3亿美元，同比增长53.7%

他26岁发表19篇SCI，毕业即副教授，导师：研究在某些领域打破垄断

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把