终端侧AI才是生成式AI规模化的未来 | 高通颜辰巍@MEET2024
原因有三。
编辑部 整理自 MEET2024
量子位 | 公众号 QbitAI
纵观刚刚过去的MEET 2024智能未来大会,终端侧AI俨然成为其中一大热词。
为什么大家都在谈论这一趋势?
在大会现场,高通技术公司产品管理高级副总裁颜辰巍归纳了三点原因:
一是随着模型参数越来越大、相关应用以及用户越来越多,云计算推理成本和综合成本将急剧增加,将难以支持生成式AI规模化发展。
二是数据在哪里,AI推理就应该在哪里进行,这不仅最经济也更为保护用户隐私。
三是有些应用场景没有5G数据连接,这时候就必须有本地计算能力。
基于此,颜辰巍认为:
只有当终端就能运行基于AI大模型的用例时,端侧与云侧能很好地结合,生成式AI才能大规模普及,发挥出所有的潜力。
为了完整体现颜辰巍对终端侧AI的见解和思考,量子位在不改变原意的基础上,对他的演讲内容进行了编辑整理。
关于MEET 智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会,吸引了超过300万行业用户线上参会,全网总曝光量累计超过2000万。
演讲要点
- 当数十亿用户都日常使用生成式AI时,云经济显然难以支持生成式AI规模化扩展。
- 只有当终端就能运行基于AI大模型的用例时,端侧与云侧能很好地结合,生成式AI才能大规模普及,发挥出所有的潜力。
- 随着基础模型的创新,很多用例可以完全在终端上运行。而这将实实在在的改变人们互动的方式。
- 终端侧AI模型的发展不能只依赖文本或单一的输入或输出形式,多模态生成式AI一定是未来的发展方向。
(以下为颜辰巍演讲全文)
终端侧AI为什么是AI的未来?
大家早上好,今天非常高兴能够来到现场,为大家介绍高通公司在AI,特别是终端侧AI领域的愿景。
高通公司认为,生成式AI正在开启人与终端交互的全新方式:
通过输入提示就可以生成文本、图像、代码、音乐和语音,为我们带来变革产业、生产力、生活娱乐方式的全新应用场景和功能。
接下来,我想谈一谈,为什么除了网络侧云端的生成式AI之外,让生成式AI在终端侧运行才能发挥生成式AI的所有巨大潜力。
当前生成式AI领域正出现多个关键趋势:第一,模型参数大大增加;第二,围绕着基础模型每天都在涌现新的应用;第三使用用户数大大增加。
这样就造成云计算推理不只是每次运行成本增加,综合成本也会急剧增加。
当数十亿用户都日常使用生成式AI时,云经济显然难以支持生成式AI规模化扩展。
这就是我们必须在终端侧支持生成式AI的第一个原因。
第二,大部分的数据产生在端侧,比如用户的聊天记录、办公记录、视频和照片等等,所以在终端侧处理AI是最经济的,也能够更好的保护用户隐私。
第三,有些应用场景可能没有5G数据连接,比如在野外,车座舱里的司机与车交互的应用。这时候就必须有本地计算能力。
所以只有当终端就能运行基于AI大模型的用例时,端侧与云侧能很好地结合,生成式AI才能大规模普及,发挥出所有的潜力。
另外还有一个趋势更重要。
大语言模型的性能正在变得愈发强大,同时我们观察到能够实现更高准确度、更好KPI,同时适合终端侧运行的参数规模在150亿以下的模型,覆盖了自然语言处理、编程、数学推理、图像或视频理解等丰富用例。
很多超大的云端模型也都推出了经过优化的终端侧版本。
随着基础模型的创新,很多用例可以完全在终端上运行。而这将实实在在的改变人们互动的方式。
PC和手机都已有落地方案
接下来,我们看一下高通的硬件和软件解决方案。
骁龙品牌大家都非常熟悉,骁龙已成为全球近30亿部终端的核心。
除了智能手机领域,骁龙也在不断往更多领域扩展,包括笔记本电脑、汽车、XR设备、平板等等。
随着行业进入生成式AI的全新时代,我们正在开启全新的突破,让骁龙成为面向终端侧生成式AI的首选平台。
骁龙的一贯优势在于我们非常注重低功耗计算和连接能力的完美结合,结合我们出色的异构计算能力,对AI模型的支持和优化,使得我们能和厂家和生态一起快速推动终端侧AI的规模化发展。
在今年10月底,我们发布了两款专为生成式AI而打造的全新平台。
一个是面向PC的骁龙X Elite平台,另一个是第三代骁龙8移动平台,目前也已经有多款搭载第三代骁龙8的旗舰终端面市。
面向PC的骁龙X Elite
骁龙X Elite平台是骁龙在PC领域的巨大突破,它是我们面向未来AI PC的最强大、最先进、最智能的平台。
它的性能和能效,完全不同于业内迄今为止的任何产品。它采用全新的、高通自主设计的基于ARM指令集的Oryon CPU架构。
它也是首个能够通过双核增强使得内核性能提升,实现主频达到4GHz以上的ARM架构CPU核心。
除了CPU,骁龙X Elite还具备最佳集成图形性能和高通AI引擎。
高通AI引擎采用异构计算架构,包括三部分。一个是刚才提到的CPU,另一个是进行图形处理的GPU,以及第三部分是为了解决在端侧运行AI大模型的低功耗大算力需求,专门为AI计算量身定制的NPU。
骁龙X Elite的Hexagon NPU能够支持45TOPS的出色AI性能,通过NPU、CPU和GPU能够整体实现75TOPS的AI算力,与其他PC平台相比AI性能十分领先,所以我们非常有信心骁龙X Elite能够支持AI PC应用出色落地。
面向手机的第三代骁龙8
在智能手机方面,第三代骁龙8的终端侧AI也是业界领先水平,尤其是Hexagon NPU与前代相比性能提升了98%,能效也提升了40%。我们正在与多家厂商共同合作,基于第三代骁龙8面向用户打造生成式AI应用。
在硬件方面,除了NPU运算能力之外,AI因为巨大的数据量,对内存速度和带宽也有很高的要求。
现在,我们在第三代骁龙8上还支持业内最新的LPDDR5-x内存,频率达到4.8GHz,通过更快的数据速度和更大带宽支持用户运行更大、更复杂的AI模型。
基于我们强大的硬件生成式AI技术,第三代骁龙8能够支持100亿参数的模型,运行速度能够达到20个token/秒。
举一个具体应用的例子,在2023年巴塞罗那世界移动通信大会上,我们第一次展示了Stable Diffusion在骁龙移动平台上运行的技术演示,当时能够在15秒内生成图片。
现在通过第三代骁龙8移动平台对算力和模型的不断优化,我们运行Fast Stable Diffusion生成图片仅需不到1秒。
高通AI软件栈以及开发工具
除了行业领先的硬件,支持在既定功耗下实现更高性能,我们在AI业务领域的关键要素还包括高通AI软件栈以及开发工具。
高通AI软件栈作为领先的边缘侧软件栈,其核心是高通神经网络处理SDK和高通AI引擎Direct,连接芯片与所有主流AI框架。
它面向我们的合作伙伴、用户和开发人员提供了一个集成所有AI框架、开发者库、全方位工具链、操作系统的整合平台,让他们得以在搭载骁龙平台的终端上打造应用,并实现“一次开发、多次部署”。
我们感到非常自豪的是已经有很多广受欢迎的生成式AI模型,其中也包括很多来自中国合作伙伴的模型,已经能够在骁龙平台上运行,我们期待这些模型让开发者能够创造出更多令人惊艳的体验。
终端侧AI模型的发展不能只依赖文本或单一的输入或输出形式,我们认为多模态生成式AI一定是未来的发展方向。
视觉、文本和语音的结合是实现完全直观体验的关键。我们的终端应该能够像人一样处理多种输入类型,我们很期待和合作伙伴尽快为这些模型提供支持。
最后总结一下今天给大家介绍的内容:
一个是第三代骁龙8能够支持在终端侧运行高达100亿参数的生成式AI模型,并以20 token/秒的速度运行大语言模型,仅需不到一秒就能使用Fast Stable Diffusion在智能手机上生成图像,为用户带来响应更快、更高效、更安全的AI应用。
另一个是骁龙X Elite平台,它的AI算力还要更高,是高通公司迄今为止面向PC打造的最强计算处理器。
凭借一流的CPU性能、领先的终端侧AI推理和支持多天续航的高能效,显著提升PC体验。
骁龙X Elite专为AI打造,支持在终端侧运行超过130亿参数的生成式AI模型,凭借快达竞品4.5倍的AI处理速度,将继续扩大我们在AI领域的领先优势。
高通在AI硬件和软件工具上所做的工作和积累,能够最大程度上支持我们的OEM合作伙伴和应用开发者利用高通平台,尽快打造让消费者真正眼前一亮的体验和应用。
我们对在终端上运行更多生成式AI倍感兴奋,它将与云计算结合,完成更多的重负载工作,使生成式AI的变革成为现实。
我们很期待未来能有机会与各位合作。谢谢。
- 北大开源最强aiXcoder-7B代码大模型!聚焦真实开发场景,专为企业私有部署设计2024-04-09
- 刚刚,图灵奖揭晓!史上首位数学和计算机最高奖“双料王”出现了2024-04-10
- 8.3K Stars!《多模态大语言模型综述》重大升级2024-04-10
- 谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用2024-04-10