豆包大模型团队&港大新成果ByteCheckpoint为LLM万卡训练提效

量子位的朋友们 2024-08-09 09:11:58 来源：量子位

最高优化529.22倍！

近日，字节跳动豆包大模型团队与香港大学联合提出了ByteCheckpoint大模型Checkpointing系统，旨在提升大模型训练效率、减少训练进度损失。

随着训练规模与模型大小的日益增长，克服软硬件故障，提高训练效率成为大模型迭代的重要影响要素。近期，Meta官方报告中披露的一组大模型万卡集群训练故障率数据引起业内广泛关注，数据显示：在 16384 块 H100 80GB 训练集群上进行 Llama3 405B 训练的故障率——短短 54 天，发生 419 次中断，平均每三小时崩溃一次。该报告同时提到，为了对抗高故障率，需要在训练过程中频繁地进行 Checkpoint ，保存训练中的模型、优化器、数据读取器状态，减少训练进度损失。可以说Checkpoint 已成为训练提效关键。

然而，现有的 Checkpoint 相关技术存在诸多问题，如系统设计缺陷导致额外的 I/O 开销增加、不同训练框架的 Checkpoint 模块相互割裂等。

豆包大模型团队和香港大学此次联合提出的ByteCheckpoint能有效解决上述问题。ByteCheckpoint为PyTorch 原生，能兼容多个训练框架，支持Checkpoint的高效读写和自动重新切分。与基线方法相比，ByteCheckpoint 在 Checkpoint 保存上性能提升高达 529.22 倍，在加载上，性能提升高达 3.51 倍。极简的用户接口和 Checkpoint 自动重新切分功能，显著降低了用户上手和使用成本，提高了系统的易用性。目前论文成果已公开：

• ByteCheckpoint: A Unified Checkpointing System for LLM Development

• 论文链接：https://team.doubao.com/zh/publication/bytecheckpoint-a-unified-checkpointing-system-for-llm-development?view_from=research

字节跳动豆包大模型团队成立于2023年，致力于开发业界最先进的AI大模型技术，成为世界一流的研究团队，为科技和社会发展作出贡献。目前，豆包大模型团队正在持续吸引优秀人才加入，希望与具备创新精神、责任心的技术人才一起，推进大模型训练提效工作取得更多进展和成果。

据了解，豆包大模型于2024年5月正式发布，现已通过字节跳动旗下云服务平台火山引擎面向企业提供服务。截至7月，豆包大模型日均Tokens使用量已超5000亿，外部企业客户日均Tokens使用量较5月15日模型发布时期增长22倍。基于豆包大模型打造的同名AI智能助手豆包，在各大应用商店AI类产品的下载量排名第一。

豆包

量子位的朋友们

豆包大模型团队&港大新成果ByteCheckpoint为LLM万卡训练提效

相关阅读

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

你的下一个浏览器，可以是豆包电脑版！

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

豆包上线音乐生成用户可一键生成词曲

Mac装上字节豆包，艾玛！一下变AI PC了！

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

「千匹马力」被比亚迪打成白菜价：最新汉唐21万起售，比小米SU 7Ultra更小米！兆瓦闪充高阶智驾都标配

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

SOTA自动绑骨开源框架来了！3D版DeepSeek开源月大礼包持续开箱ing

豆包大模型团队&港大新成果ByteCheckpoint为LLM万卡训练提效

相关阅读

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

你的下一个浏览器，可以是豆包电脑版！

推理成本比MoE直降83%！字节最新大模型架构入围ICLR 2025

豆包版《Her》升级上新！随时打断，交流自然，还是开箱即用的那种

豆包上线音乐生成 用户可一键生成词曲

Mac装上字节豆包，艾玛！一下变AI PC了！

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

「千匹马力」被比亚迪打成白菜价：最新汉唐21万起售，比小米SU 7Ultra更小米！兆瓦闪充高阶智驾都标配

刚刚，商汤发布第六代大模型：6000亿参数多模态MoE，中长视频直接可推理

SOTA自动绑骨开源框架来了！3D版DeepSeek开源月大礼包持续开箱ing

豆包上线音乐生成用户可一键生成词曲