模型参数太多怎么办？用谷歌高效训练库GPipe啊

夏乙 2019-03-05 17:48:22 来源：量子位

不用调整超参数，就能用更多加速核心来训练更大的模型，提升性能。

晓查发自凹非寺

量子位报道 | 公众号 QbitAI

BigGan、BERT和GPT-2的出现表明，越大的神经网络模型可以带来越好的性能。其中能写出各种假新闻的GPT-2参数就有15亿个之多。

如果你也在训练一个参数超多的模型，那么现在有个好消息要告诉你。

谷歌在最近公布的Lingvo框架下开源了GPipe。它让研究人员不用调整超参数，就能用更多加速核心来训练更大的模型和提升性能。

GPipe适用于多个连续层组成的任何DNN，而且训练模型的大小与分区数成正比。

参数越多，效果越好

在计算机视觉图像分类任务上，模型大小和分类准确性之间存在很强的相关性。

△不同图像分类模型在ImageNet上的表现，显示出准确度和参数数量的强相关性

从2014年到2017年，ImageNet视觉识别的冠军的准确度从74.8%提升到了82.7%，模型参数增加了36倍。

而在这三年间，GPU显存仅仅增加了3倍，因此迫切需要一种高效的神经网络训练库来解决参数太多的问题。

核心越多，参数越多

GPipe就可以减少参数模型对内存的占用。

谷歌研究人员在8核心64GB内存的云TPUv2进行测试。如果没有GPipe，由于内存的限制，每个加速核心只能训练8200万个参数。

使用GPipe后，活动内存从6.26 GB降低到3.46GB，可以在单个加速核心上训练3.18亿个参数，接近原来的4倍。

通过GPipe，AmoebaNet能够在云TPUv2上加入18亿个参数，比没有GPipe的情况下多25倍。

△ 谷歌将AmoebaNet-D模型分配到四倍数量的加速核心上，实现了3.5倍的加速

GPipe不仅仅速度更快，在训练模型的质量上也有提高。

为了验证这一点，谷歌训练了另一种图像分类算法AmoebaNet-B，它总共有5.57亿个模型参数。

该算法在一些常用的数据集上表现很好，将single-crop ImageNet精度提高到了84.3％，在CIFAR-10上的精度为99％，在CIFAR-100上的精度为91.3％。

GPipe为何能实现高效

原则上我们可以通过并行计算在GPU或者TPU上训练更大的DNN模型。但是由于DNN的顺序性，这种方法可能导致在计算期间只有一个加速器处于活动状态，不能充分利用设备的计算能力。

谷歌在GPipe使用了两种AI训练技术：一种是同步随机梯度下降，另一种是并行pipeline，将上一步的输出作为流传输到下一步。

Gpipe将模型划分到不同的加速核心，并自动将mini-batch的训练样本分成更小的micro-batch，并在pipeline中运行，使TPU核心能够并行操作。

此外，梯度一直在micro-batch中累积，因此分区数量不会影响模型质量。

以上都是在云TPUv2上的结果，实际上GPipe在云TPUv3上有更好的性能，每个TPUv3都有16个加速器核心和256 GB（每个加速器16 GB）。用GPipe训练80亿参数的Transformer模型时，能实现11倍的加速。

开源地址：

https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

— 完 —

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

机器学习训练谷歌

夏乙

模型参数太多怎么办？用谷歌高效训练库GPipe啊

相关阅读

超越Mask-RCNN：这是谷歌大脑的AI，自己写的目标检测模型

实现100倍加速！谷歌开源超强张量计算库TensorNetwork

谷歌仍旧希望与华为合作，已向美国政府提出申请

谷歌PaLM 2细节曝光：3.6万亿token，3400亿参数

皮猜很高兴：谷歌同期净利润增长162%，云业务亏损减半，股价上涨超4%

Jeff Dean成众矢之的，开除谷歌AI伦理研究员，1400名员工公开谴责

热门文章

全栈AI基础设施支撑，跑出全球首个开放使用视频生成DiT模型

7×24小时非人类科学家入场：当AI开始自主探索科学未知领域 | 多伦多大学

数学家们仍在追赶天才拉马努金

蔚来李斌：一年减少了数十亿英伟达芯片采购

人人可用的超级智能体！100+MCP工具随便选，爬虫小红书效果惊艳