字节跳动开源大模型训练框架veGiantModel，性能最高提升6.9倍 profile-avatar

量子位的朋友们 2022-03-21 17:48:20 来源：量子位

大幅降低训练系统的压力

近日，字节跳动应用机器学习团队开源了一款名为 veGiantModel的大模型训练框架，该训练框架主要应用于自然语言处理领域的大模型训练，最高可将大模型训练的性能提升6.9倍，大幅降低训练系统的压力。目前，字节跳动旗下的企业级技术服务平台火山引擎已在其机器学习平台上原生支持了 veGiantModel，该平台正在公测中。

自然语言处理是人工智能研究的一个重要领域，旨在帮助计算机理解、解释和运用人类语言。近些年，自然语言处理在应用方面取得了较为显著的突破，主要是归功于Bert、GPT、GPT-3等预训练语言模型的普及。可以说，预训练语言模型已经成为人工智能领域的基础设施。由于大模型的算法表现更加出众，预训练语言模型在近几年呈现出迅速向大模型发展的趋势。然而，模型体积的快速增长也对现有的训练系统带来了不小的挑战，主要体现为显存压力、计算压力和通信压力。

针对现有训练系统在大模型训练场景下的上述挑战，字节跳动应用机器学习团队提出了大模型训练框架veGiantModel。

veGiantModel的中文名称叫做火山引擎大模型训练框架，是基于开源深度学习框架 PyTorch 、并在 Megatron 和 DeepSpeed 两大开源主流训练框架的基础之上构建的高性能大模型训练框架。

veGiantModel可同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略，并支持自动化和定制化的并行策略；基于字节自研的高性能异步通讯库ByteCCL，veGiantModel的训练任务吞吐相比其他主流开源框架有 1.2 倍到3.5倍的提升，并且提供了更友好、灵活的流水线支持，降低了模型开发迭代所需要的人力；另外，veGiantModel可在 GPU上高效地支持数十亿至上千亿参数量的大模型，对网络带宽要求也更低，在私有化部署时无 RDMA 强依赖。

与 Megtraon 和 DeepSpeed 的对比测试显示，veGiantModel 的性能表现最好、受网络带宽影响最小，在Tesla V100上较上述两者有1.2 倍到3.5倍的提升，在Ampere A100上最高可提升6.9倍。

veGiantModel开源地址：

https://github.com/volcengine/veGiantModel

火山引擎机器学习平台公测地址：

https://www.volcengine.com/product/ml-platform

字节跳动

量子位的朋友们

字节跳动开源大模型训练框架veGiantModel，性能最高提升6.9倍 profile-avatar

相关阅读

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

字节跳动参与研究成果入选《Nature》子刊首次将元学习引入神经科学

TikTok事件现「罗生门」，字节表示100%持股，甲骨文：不，你没有了

字节跳动发布业内首个视频转场推荐方案，成果入选ECCV2022

AI如何反低俗？今日头条推内容检测工具“灵犬”3.0，首次公开其技术原理

字节跳动发布关于TikTok若干不实传言的说明

热门文章

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

不做Sora背后：百度的多模态路线是什么？

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼

字节跳动开源大模型训练框架veGiantModel，性能最高提升6.9倍 profile-avatar

相关阅读

ICASSP 2024｜字节跳动流媒体音频团队创新方案解决丢包补偿、通用音质修复问题

字节跳动参与研究成果入选《Nature》子刊 首次将元学习引入神经科学

TikTok事件现「罗生门」，字节表示100%持股，甲骨文：不，你没有了

字节跳动发布业内首个视频转场推荐方案，成果入选ECCV2022

AI如何反低俗？今日头条推内容检测工具“灵犬”3.0，首次公开其技术原理

字节跳动发布关于TikTok若干不实传言的说明

热门文章

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

不做Sora背后：百度的多模态路线是什么？

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼

字节跳动参与研究成果入选《Nature》子刊首次将元学习引入神经科学