英伟达A100深度学习性能实测：训练速度可达V100的3.5倍

晓查 2021-02-02 16:22:08 来源：量子位

实测性能究竟有没得达到宣称

子豪发自凹非寺
量子位报道 | 公众号 QbitAI

英伟达最新发布的基于新架构的A100加速计算卡，其官网宣传：

自动混合精度和FP16，可以为A100带来2倍的性能提升；

而且，在不更改代码的情况下，具有TF32的A100与英伟达Volta相比，性能能够高出20倍。

那么，A100与V100相比，究竟如何？最近Lambda网站真的把它俩的训练速度对比了一番。

硬件参数对比

△ 英伟达A100 GPU

相比V100，A100的单精度浮点计算能力，从15.7TFLOPS提升至19.5TFLOPS；而双精度浮点运算从7.8TFLOPS提升至9.7TFLOPS。

在英伟达的公开信息中，列出了A100与V100的参数对比：

在BERT深度学习训练中，二者的速度对比：

在其他训练模型下，A100是否能有同样出色的表现？

测试结果如何？

二者均选择适用于NVLink的产品进行测试，在32位精度下，采用PyTorch训练。

对于A100，32位是指FP32+TF32；对于V100，指的是FP32。

测试分为两部分：卷积神经网络训练速度、语言模型训练速度。

卷积神经网络训练速度

测试者将一块V100的32位的训练速度归一化，对比了不同数量GPU的训练速度。

将结果在SSD、ResNet-50和Mask RCNN上取平均值。（原始数据可通过文末链接查看）

得到结果：

例如：

1块A100 VS 1块V100，进行32位训练：前者速度是后者的2.17倍；
4块V100 VS 1块V100，进行32位训练：前者速度是后者的3.88倍；
8块A100的混合精度训练 VS 1块V100的32位训练：前者速度是后者的20.35倍。

语言模型训练速度

与上面的对比方法相同。

将结果在Transformer-XL base、Transformer-XL large、Tacotron 2和ERT-base SQuAD上取平均值。（原始数据可通过文末链接查看）

得到结果：

例如：

1块A100 VS 1块V100，进行32位训练：前者速度是后者的3.39倍；
4块V100的混合精度训练 VS 1块V100的32位训练：前者速度是后者的7.97倍；
8块A100的混合精度训练 VS 1块V100的32位训练：前者速度是后者的42.60倍。

结论

在卷积神经网络训练中：

1块A100的训练速度是1块V100的2.2倍；

使用混合精度时，前者则是后者的1.6倍。

在语言模型训练中：

1块A100的训练速度是1一块V100的3.4倍；

使用混合精度时，前者则是后者的2.6倍。

其中，分别用8块A100与8块V100，进行32位训练：前者速度能够达到后者的3.5倍；

看来，针对不同模式下的深度学习训练，英伟达A100都有着相当不错的效率。

“前所未有的规模”以及“惊人的性能”，所言不虚。

原文链接：
https://lambdalabs.com/blog/NVIDIA-a100-vs-v100-benchmarks/

测试原始数据：
https://lambdalabs.com/gpu-benchmarks

GPU 英伟达

晓查

英伟达A100深度学习性能实测：训练速度可达V100的3.5倍

硬件参数对比

测试结果如何？

卷积神经网络训练速度

语言模型训练速度

结论

相关阅读

英伟达数据被盗后续：黑客用证书将病毒伪装成显卡驱动

黄仁勋从煤气灶下取出最新GPU：7nm全新安培架构，售价20万美元，训练性能顶6张V100

英伟达上线游戏云服务平台GeForce Now，每月4.99美元

老黄“自废武功”：3060挖矿效率砍一半，同时推出专业矿卡，只为让你买上30系显卡

比英伟达便宜4000元、功耗更低、游戏性能相同，AMD发布RX 6900 XT旗舰显卡

英特尔拆分GPU部门，一把手重回技术岗，累计亏损超20亿美金

热门文章

ChatGPT新玩法火了：一句话画出你的真实生活，大神Karpathy玩上了

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准

字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图

小度为何押注AI眼镜？

董宇辉：我已经失去了所有快乐的前提

英伟达A100深度学习性能实测：训练速度可达V100的3.5倍

硬件参数对比

测试结果如何？

卷积神经网络训练速度

语言模型训练速度

结论

相关阅读

英伟达数据被盗后续：黑客用证书将病毒伪装成显卡驱动

黄仁勋从煤气灶下取出最新GPU：7nm全新安培架构，售价20万美元，训练性能顶6张V100

英伟达上线游戏云服务平台GeForce Now，每月4.99美元

老黄“自废武功”：3060挖矿效率砍一半，同时推出专业矿卡，只为让你买上30系显卡

比英伟达便宜4000元、功耗更低、游戏性能相同，AMD发布RX 6900 XT旗舰显卡

英特尔拆分GPU部门，一把手重回技术岗，累计亏损超20亿美金

热门文章

ChatGPT新玩法火了： 一句话画出你的真实生活，大神Karpathy玩上了

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准

字节豆包通用图像编辑模型SeedEdit开启测试 用户可一句话轻松改图

小度为何押注AI眼镜？

董宇辉：我已经失去了所有快乐的前提

ChatGPT新玩法火了：一句话画出你的真实生活，大神Karpathy玩上了

字节豆包通用图像编辑模型SeedEdit开启测试用户可一句话轻松改图