AI芯片评测如何与时俱进?地平线提出全新MAPS评测方法,帮助用户理解AI芯片性能
从准、快、省这三个维度来看。
允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI
AI芯片性能该如何评估?目前业界内有两种:
一是峰值算力,它反映AI芯片理论上的最大算力,但却不能反映其在实际场景中的处理能力;
二是目前行业知名的基准测试组织MLPerf,用传统AI模型的运算时间来衡量芯片的速度,但是其采用的模型难以跟上当今快速演进的算法。
那么,业界有没有一个与时俱进的,能够有效衡量芯片AI性能的评测方法呢?
在中国计算机学会(CCF)主办的2020全球人工智能和机器人峰会上,地平线联合创始人兼技术副总裁黄畅提出了一个全新的概念——MAPS (Mean Accuracy-guaranteed Processing Speed),即“在精度有保障范围内的平均处理速度”。
它的意思是在精度有保障的范围测试平均效能如何,得到一个全面、完整、客观、真实的评估。以此来作为评估芯片AI真实性能的标准。
历史上有很多常用的芯片性能评估指标。
传统上,CPU有MIPS,GPU有Textur和Pixel。在高性能计算上,GPU开始使用TFLOPS,即每秒浮点运算次数。进入到NPU,也就是用于支持AI计算的时代,大家普遍使用TOPS。
这是常规的性能评估方式,无一例外的它都能反映出这颗处理器、芯片所处的应用场景中的特点、需求。
但是TOPS是不是能够真实的反映芯片的AI性能?
在下面这张图中有两颗比较主流的AI芯片,一颗主流芯片有11.4TOPS的算力,另外一颗芯片有4TOPS的AI算力,都是它们的峰值算力。
但在实际使用过程中,二者的利用率差异是非常大的。11.4TOPS算力的芯片在多数情况下,甚至还不及4TOPS算力的芯片。
这里面有很多原因,有算法本身的特点,比如说数据的重复性比较差导致。但是往往根因是在于这些芯片的计算架构,它的设计特点不能够很好地反映这些算法发展的趋势。
比如AlphaGo,它的训练的量从2012年到2019年提升了7个数量级。还有ImageNet,近年来,这项测试的精度基础趋近饱和,业界开始关注计算的效率,提出了很多轻量级模型。
与此同时,摩尔定律已经逐渐失效,如果还用传统的算力指标,就无法跟上时代,更不能反映算法提升在AI芯片中的作用。
所以如何评估芯片的AI性能,黄畅认为应该换一个角度,从准、快、省这三个维度来看。
准是反映实际需求任务上的算法精度,比如说图像分类里面用Top-1或者Top-5的精度判断它是不是准,还有COCO里面可以用mAP指标描述它,不同的任务里面,在学术界已经有比较多共识
快通常有两个维度,一个是延迟,一个是吞吐率。前者更侧重于处理单个任务的最快反应时间,后者应用于你可以在服务器层面上用最大的处理方式处理它的吞吐率。
省就是看它的成本和功耗。
前面提到的MLPerf就只看芯片的“快”,它只选取少数模型,在精度相同的条件下比谁的速度快,但是它采用的模型都是三年前的经典模型,无法体现高效能算法的进步。
如果我们放下所有的成见,包容所有的模型选择,只关注芯片跑得多准以及跑得多快。那是不是一个更有包容性、更开放的评测方法呢?
为了打破传统性能评估的困境,地平线提出了MAPS。
黄畅认为,相比传统的测试标准,MAPS有六大创新点:
- 能够可视化芯片的Benchmark,通过可视化的图形更精确的表达;
- 关注真实、面向结果的需求,只在乎精度和速度,不在乎中间任何关于算法的取舍和选择;
- 可以统一表示精度与速度,关注主流精度区间。
- 隐藏与最终结果无关的中间变量,包括模型、输入大小、批处理的量是多大;
- 通过这种方法可以在算力之外帮助用户理解这个芯片到底能跑多快以及多好;
- 可以引导客户如何用最优的方式使用芯片。
长期致力于AI芯片的软硬件研发和商业落地的地平线,此次提出MAPS芯片AI性能评测方法,为行业提供一个能帮助用户更好理解芯片AI性能的角度。
地平线认为,这个评测方法最重要的意义,是鼓励行业树立对正确目标的统一认知,形成合力,更好地协同推动AI芯片产业发展。
地平线希望未来能有更多的软件、算法工作者,在MAPS评估指导体系的启发下,从自己最擅长的能力上持续推动AI芯片能力的发挥。
- 脑机接口走向现实,11张PPT看懂中国脑机接口产业现状|量子位智库2021-08-10
- 张朝阳开课手推E=mc²,李永乐现场狂做笔记2022-03-11
- 阿里数学竞赛可以报名了!奖金增加到400万元,题目面向大众公开征集2022-03-14
- 英伟达遭黑客最后通牒:今天必须开源GPU驱动,否则公布1TB机密数据2022-03-05