高通，看见了AI芯片的“多面”

萧箫 2020-09-27 12:28:41 来源：量子位

从“云端”到“边缘”

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

AI芯片行业，正面临着层出不穷的需求。

据Research and Markets预测，数据中心的AI芯片（即AI加速器）市场规模将从2018年的28.4亿美元，增长到2023年的211.9亿美元。

AI芯片，分为训练和推理，前者用来“做模型”（跑大量数据、调整参数），后者则用来“出结果”（实时检测、目标跟踪）。

“做模型”就像是产品加工，在“工厂”里完成，但模型出来后，就不局限在“工厂”中了，还能部署到手机、汽车等设备上使用。

这里的“工厂”，通常是云端，那里有大量服务器部署；而手机、汽车等设备，被称为边缘（终端），也是AI模型真正需要用到的地方。

可以看出，AI训练芯片只靠绝对算力——只要算力越高，模型训练得就越快。

但手机和汽车等设备，受体积、储能、实时等诸多限制和要求，算力已不再是单一的考虑条件。

AI推理芯片不仅看算力，还要讲究时延、功耗和成本。

相对于AI训练芯片，AI推理芯片需求量更高，使用场景也更广泛。

市调机构Tractica称，预计从2018到2025年的7年时间里，AI推理芯片将有10倍的增长，至2025年可达170亿美元。

事实上，无论是算力、还是硬件要求，边缘推理芯片的设计都要比云端更复杂。

处在野蛮生长阶段的AI芯片市场，做好云端推理芯片已非易事，入局边缘芯片还会更难。

但高通却做出了尝试。

18个月，性能领跑行业

2019年4月，高通宣布推出Cloud AI 100芯片，称它是“为满足急剧增长的云端AI推理处理的需求而设计”、“让分布式智能可以从云端遍布至用户的边缘终端，以及云端和边缘终端之间的全部节点。”

那时候，市场上也有部分人士持并不看好的态度。一些观点认为，2019年再入局云端AI芯片、并赶超最先进的云端AI推理芯片，似乎为时已晚。

而18个月过后，Cloud AI 100芯片在ResNet-50上的测试效果流出，引爆了行业内的深水炸弹。

从图中来看，横轴是功耗（越小越好，图中右边更小）；纵轴是吞吐量（越高越好）。

即使是英伟达最新Ampere架构的A100芯片，吞吐量也不到25000，耗能却超过了300W。

从功耗来看，英特尔的Goya可低达100W，但吞吐量只能达到15000左右。

相比之下，高通的Cloud AI 100 PCle，吞吐量超过25000，却只需要75W。

这样的芯片性能，听起来让人难以置信。

而且，这个75W的芯片，支持最高每秒400万亿次（400TOPS）的算力。

高通到底在云端AI推理芯片上“施了什么魔法”？

先来看看它的内部结构：

16个AI内核（AIC）

支持INT8，INT16，FP16和FP32

4个64位内存控制器（LPDDR4×）

144MB的片上SRAM高速缓存

也就是说，通道的总系统带宽为134GB/s，但144MB的片上SRAM高速缓存设计，在片上保存了尽可能多的存储器流量。

此外，7nm的工艺节点，也有助于降低功耗。

而在封装上，高通采取了三种不同的形式：

DM.2e，15W，超过50 TOPS

DM.2，25W，超过200 TOPS

PCle，75W，约400 TOPS

其中，DM.2从外形来看，有点像两个相邻的M.2连接器，其中，M.2以尺寸小、传输性能高广受欢迎。

而DM.2e是dual M.2 edge的缩写，意为“两个边缘的M.2连接器”，是一种更小、功耗更低的热封壳外形。

从DM.2e的芯片设计来看，高通的目标似乎并不仅局限于云端。

将云端芯片“边缘”化

事实上，从行业消息来看，云端的确不是高通的终点。

这次的Cloud AI 100，也将目光放在了更长远、更现实的位置——边缘人工智能（Edge AI）。

国际数据公司IDC的半导体研究总监Michael J. Palma曾表示：“人工智能的成功，在于部署到边缘的系统，在边缘系统中，神经网络做出的即时决策实际上可以创造价值，不受延迟和连接问题的约束——而这些问题对云解决方案来说是个挑战。”

据市场调研机构MarketsandMarkets预测，全球边缘人工智能软件市场规模，将从2018年的3.56亿美元，增长到2023年的11.52亿美元。

在2018年到2023年的预测期内，年复合增长率(CAGR)为26.5%。

在Cloud AI 100芯片开始应用的同时，高通也同时发布了对应的边缘人工智能开发工具包——Cloud AI 100 Edge AI SDK。

这一工具包，主要由以下3大模型构成：

Cloud AI 100芯片（低功耗、高性能AI芯片）

骁龙865模块化平台（负责应用&视频处理）

骁龙X55调制解调器及射频系统（5G连接）

这一工具包，除了上述芯片所包含的5G特性、能耗低等特点以外，目前透露的功能还有不少。

其中，支持24个相机同时拍摄分辨率达1920×1080的视频流、每秒25帧的高清视频。

不仅支持远程访问、可升级空中下载软件、可部署到户外，而且在PyTorch、ONNX、Tensorflow上都能运行。

此外，这一SDK还支持Keras、Caffe、PaddlePaddle等主流框架。

至于应用方向，包括新闻推送、广告、个性化视频、搜索、XR和游戏等，可以说是边缘的应用场景，它都能满足。

据高通近日公布的消息，Cloud AI 100正面向其全球部分客户出货，预计采用该产品的商用设备将于2021年上半年面市。

回看高通AI探索节点后的发现

“高通在AI研发方面拥有悠久的历史。”

高通人工智能及边缘计算资深总监John Kehrli表示：“高通正处于第五代移动端解决方案中，拥有超过11年的研发经验，因此，高通正在利用行业专业知识（进行研发）。虽然这是AI内核，它与移动技术并不相同，但我们可以利用那个领域的经验。”

实际上，早在2007年，高通旗下的Qualcomm Research就启动了首个人工智能项目，并于2018年成立Qualcomm AI Research。

2015年，搭载第一代AI Engine（人工智能引擎）的高通骁龙820发布，第二年，高通发布了神经处理引擎SDK。

在骁龙835、845和855发布后，2019年，高通正式发布第五代AI Engine骁龙865移动平台。

高通第五代AI Engine支持许多移动端的新老应用，包括AI实时语音翻译、人像留色、背景虚化、AI一键多拍、夜景拍摄与人像智能识别……

今年，高通也同样在AI赛道上飞速奔驰。

6月18日，高通推出全球首款支持5G和AI的机器人平台RB5。

此后推出了骁龙690 5G移动平台、骁龙750G 5G移动平台等，同样支持第五代AI Engine。

9月初，骁龙8cx第二代5G计算平台发布，支持AI Engine。

同样在近期，Facebook发布的Oculus Quest 2首次搭载了骁龙XR2平台，与前代平台相比，骁龙XR2平台的AI处理能力提升高达11倍，能够支持更多感知算法。

9月中旬，高通的云端推理芯片Cloud AI 100已经出货，同时，高通开始探索Cloud AI 100边缘方案开发套件，并已实际交付。

这是它在AI芯片行业、边缘人工智能迈出的新一步。

在全球人工智能产业的生态系统逐步成型的当下，AI已然成为各行各业加速发展的助推器。

高通也不例外，从手机、PC、XR到机器人等等，它在飞速推动各领域的AI升级。

目前，高通的所有系统级芯片都支持AI、或集成AI Engine。

对于AI芯片而言，就像产品的最终目的是落地一样，从“云端”到“边缘”也是一种必然的趋势。

如果只将目光放在眼下单一领域的利益发展、而非多角度进行探索，将难以在竞争愈渐激烈的行业中谋得生存。高通的全方位投入所取得的成果，让AI行业看见了新的范例。

参考链接：
https://www.globenewswire.com/news-release/2019/01/23/1703961/0/en/21-1-Billion-Data-Center-Accelerator-CPU-GPU-FPGA-ASIC-Market-2018-Global-Forecast-to-2023.html

Qualcomm preps edge AI offering

AI芯片高通

萧箫

高通，看见了AI芯片的“多面”

18个月，性能领跑行业

将云端芯片“边缘”化

回看高通AI探索节点后的发现

相关阅读

挑战ARM！高通恩智浦等5家巨头联手组建新公司，专搞RISC-V

10亿参数模型进手机！15秒即可出图，飞行模式也能用

骁龙最强AI芯能力下放：小旗舰8s发布，端侧跑10B模型，小米首发

对话高通工程技术SVP：AI研发最关注高能效，云端AI推理芯片已流片成功

清华校友陈怡然、杨越组队进军AI芯片市场，成立苹芯科技，最新Pre-A轮斩获近千万美元

阿里投资的Magic Leap迎来新任CEO，此前任职于微软高通

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比