中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

十三 2021-07-08 14:21:04 来源：量子位

邃思2.0发布

金磊发自上海
量子位报道 | 公众号 QbitAI

上回书说到——《一份邀请函引发的中国芯片新猜想》。

于是乎，我为了验证这个猜想是否正确，特此前来上海一探究竟。

直接揭晓答案：猜对了！

中国最大AI芯片——邃思2.0，正式发布。

而且听完整场发布会，最直观的感受便是好多的“第一、首个”：

中国首款支持单精度张量TF32数据精度的人工智能芯片。
单精度FP32/张量TF32峰值算力，均为国内第一。
中国第一个支持世界最先进存储HBM2E和单芯片64 GB内存的产品。
加上其它产品升级，成为国内首家发布第二代AI训练的组合产品。

嗯，看着似乎是有点东西。

中国最大AI芯片问世

先来聊聊最为核心的这张芯片。

虽然说邃思2.0是面向AI云端训练，基于第一代的升级，但一个重点是工艺没有变化。

也就是这张芯片依旧是由格芯的12nm FinFET工艺打造。

尺寸方面，为57.5毫米×57.5毫米，达到了芯片采用的日月光2.5D封装的极限。

算力方面：

单精度FP32算力为40TFLOPS
单精度张量TF32算力为160TFLOPS
整数精度INT8算力为320TOPS

堆叠存储方面，搭载的是HBM2E，据了解，这是目前业界较为领先的存储方案。

它具备超大存储容量和访存带宽，最高达到64GB和1.8TB/s，还可以支持眼下爆火的超大规模模型的训练。

算力扩展方面，由于邃思2.0拥有300GB/s的独立片间互联通道，因此可以非常灵活。

一个邃思2.0，升级三大产品

而随着邃思2.0的到来，燧原科技其他产品也得到了相应地升级。

首先，是云燧T20 训练加速卡。

它是面向数据中心的第二代AI训练加速卡，官方介绍是这样的：

具有模型覆盖面广、性能强、软件生态开放等特点，可支持多种人工智能训练场景。

那么到底性能能抢到什么程度？

在现场，燧原科技直接亮出的Benchmark！

不难看出，在图像识别/分类、NLP、目标检测、图像分割和推荐任务中，与友商相比均有明显的提升。

（至于这个友商，就是很强的那家，你懂的）

或许你觉得数据还不够直观，那就直接来效果吧。

下面是友商和云燧T20处理图片的速度对比：

处理图片更多，速度还更快，有木有！

除此之外，还有云燧T21训练OAM模组。

据了解，它是是基于OCP（开放计算项目）OAM（开放加速模组）标准设计、兼容OCP OAI标准（开放加速器基础设施）的AI训练加速模组。

所面向的数据中心，可以在互联网、金融、教育、医疗、工业和政务等场景中使用。

云燧T21单精度FP32算力最高可达40TFLOPS、TF32算力最高则是160TFLOPS。

与友商的性能对比如下：

最后，燧原科技还升级了它家的驭算TopsRider软件平台：

基于算子泛化技术及图优化策略，支持主流深度学习框架下的各类模型训练。
利用Horovod分布式训练框架与GCU-LARE互联技术相互配合，为超大规模集群的高效运行提供解决方案。

而且编程模型和可扩展算子接口，都是开放的哦。

还搞了一个“大组合”

以为这就完了？

不不不。

燧原科技还把它们搞了个“大组合”——云燧智算集群 （CloudBlazer Matrix 2.0）。

最高单精度算力可以达到1.3E（130000T），足足是上一代的46倍。

燧原科技COO 张亚林表示：

云燧的互联接口在单口速度保持不变的前提下，接口数量从T10的4个增加到T20的6个，带宽提升150%。

用云燧T20可以打造中国E级单精度算力集群。

承诺了一个约定

最后的最后，燧原科技还介绍了关于他们接下来的计划。

云端训练计算产品方面，在2023年，他们准备发布T30/T31。

较一代产品相比，性能要达到14倍。

云端推理计算产品方面，也将在2023年进行迭代，性能提升16倍。

而且还给出了一个燧原产品定理：

至于到了2023年，燧原科技能否兑现承诺，就一起拭目以待吧。

AI芯片云端训练燧原科技

十三

中国最大AI芯片发布，顺手拿下四个国内第一，带Benchmark的那种

中国最大AI芯片问世

一个邃思2.0，升级三大产品

还搞了一个“大组合”

承诺了一个约定

相关阅读

科大讯飞2位董事同日辞职，联合创始人胡郁发力造芯

报名 | 四场直播讲透AI芯片的应用与挑战、剖析技术难点，芯片的所有知识点都在这了

只需2.5W功耗，就能达到5TOPS算力！地平线新一代AIoT芯片「旭日3」发布

去年亏11亿的寒武纪拟科创板募资28亿：三年总营收5.68亿，99%客户来自国内，曾从华为海思挖来CTO

MEET2021 | 地平线黄畅：软件2.0时代，数据驱动进化，算力将成为智能化的基石

大模型最快推理芯片一夜易主：每秒500tokens干翻GPU！谷歌TPU人马打造，喊话奥特曼：你们也太慢了

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

数学家们仍在追赶天才拉马努金

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳

蔚来李斌：一年减少了数十亿英伟达芯片采购