谷歌发布TF新工具：计算速度提升2倍，减少无效参数

萧箫 2021-03-10 13:05:25 来源：量子位

针对移动端AI模型

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

一顿操作后，需要实时模糊背景的视频，看起来流畅了不少：

实时目标检测的延迟也更低了：

这是谷歌特意为移动设备和Web端开发的一系列新工具，可以在几乎不影响AI模型推理准确性的同时，“修剪”模型大小，以提升模型推理速度。

最好的情况下，能将AI模型的推理速度提升2倍，模型大小“缩水”一半。

这是怎么做到的？

“抽掉”部分网络权重

这一过程，利用了AI、机器学习模型的稀疏性。

稀疏性，指在神经网络模型中，可以将部分网络的权重设置为0，以加快推理速度。

它的实现过程，有点像是玩只抽走积木的叠叠乐游戏。

用户要在保证模型不会“坍塌”的同时，抽走部分参数（将参数设置为0）。

这是因为，AI模型在进行推理任务时，往往涉及大量矩阵乘法运算。

如果能在不影响推理结果的同时，将矩阵中的部分参数设置成0，就能极大地加快矩阵运算速度，缩短推理时间。

目前，许多移动端的轻量级神经网络架构，如MobileNet和EfficientNetLite，主要由深度可分离卷积和1×1卷积组成。

其中1×1卷积耗费的推理时间最多，占总计算量的65%以上。

在MobileNet中，1×1卷积的计算量甚至占模型总推理时间的85%。

因此，1×1卷积层成为了稀疏化的最优选择。

TensofFlow Lite可用

此前，这种利用稀疏性加速推理的方法，应用范围并不广泛。

一个原因，是神经网络本身难以解释，导致稀疏化的过程也不好解释，以至于缺乏稀疏化的工具。

另一个原因，则是相应设备如手机，缺乏对稀疏化操作的支持。

现在，谷歌特意为移动设备和Web端，发布了一系列针对TensorFlow Lite、和XNNPACK浮点加速库的稀疏化新工具。

利用这些稀疏化工具，神经网络就能变得更高效，用户也能快速上手。

其中，XNNPACK库包含了能检测模型是否稀疏的方法，TF Lite工具包中则包含基于幅度的修剪、或RigL等让模型“缩水”的方法。

整体稀疏化的过程如下：

首先，从原始模型开始训练，在过程中逐渐将网络中的部分权重设置为0，即“修剪”模型。
然后，通过适当增加训练时间，提升模型准确度（不会比修剪前的模型差太多）。
最后，获得的稀疏AI推理模型，可以以压缩格式有效存储，比原始模型要更小。

这个工具支持一系列感知算法模型，包括MediaPipe的手部跟踪模型：

以及Google Meet中的背景替换模型：

当然，除了谷歌自带的AI模型以外，这些稀疏化工具也可以用在自己设计的AI模型中。

具体效果如何呢？

推理速度快2倍

下图是原始模型和稀疏模型的对比。

其中，蓝色和黄色，分别对应原始模型的32帧/秒、和16帧/秒的模型大小，红色和绿色则是稀疏模型对应的大小。

从图中可以看见，经过“修剪”的AI模型，无论是“手部跟踪”、还是“背景替换”，模型大小都降低了接近一半以上。

而且，随着稀疏程度的提高，推理时间也几乎呈直线下降趋势。

但也要注意，不能一味地稀疏化模型，因为当模型的稀疏化程度高于70%的时候，模型的精度就会出现明显的下降。

因此，模型的实际稀疏效果，还是会和理论上有所出入。

在实际应用上，Google Meet推理时间只降低了30%，但也已经非常不错了。

还在发愁自己的AI模型太大，在移动设备中运行效果不好的小伙伴，可以试着将自己的模型“缩缩水”了~

项目地址：
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/delegates/xnnpack/README.md#sparse-inference

参考链接：
[1]https://ai.googleblog.com/2021/03/accelerating-neural-networks-on-mobile.html

AI模型机器学习移动应用稀疏

萧箫

谷歌发布TF新工具：计算速度提升2倍，减少无效参数

“抽掉”部分网络权重

TensofFlow Lite可用

推理速度快2倍

相关阅读

Reddit大热，伯克利PPT带你入门机器学习：方法、知识点全面覆盖

从头花12年读个机器学习博士，究竟值不值？

《我的世界》AI大战降临：6000万帧超大数据集已发布，NeurIPS 19向你约战

全球每天产生100篇机器学习新论文！谷歌大脑负责人Jeff Dean发推引热议，网友：太浪费时间

BERT轻量化：最优参数子集Bort，大小仅为BERT-large16%

AI大牛推特热议：机器学习中最美/最优雅的idea是什么？网友：每个人的答案都值得一看

热门文章

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此