华为最新大模型来了！盘古3.0问世，千亿参数规模3万亿tokens，放话「不作诗只做事」

明敏 2023-07-08 08:02:31 来源：量子位

现场演示行业大模型

明敏发自东莞

量子位 | 公众号 QbitAI

终于，华为的大模型动向来了！

盘古大模型3.0，今天正式发布。

最底层的基础大模型包括100亿参数、380亿参数、710亿参数和1000亿参数四个版本，预训练使用了超3万亿tokens。

华为最新大模型来了！盘古3.0问世，千亿参数规模3万亿tokens，放话「不作诗只做事」

但和早先的传言不同，盘古大模型3.0并非是盘古版ChatGPT，而是一个面向行业的大模型系列。

用华为自己的话来说就是：

盘古大模型，不作诗。

（而且现场全程没有cue到“生成式”这个关键词）

所以在惯例的现场演示环节，华为也都是派行业大模型出战。

比如让政务大模型判断照片中除了货车外还有哪些车辆违规，可以看到大模型标出了三辆小轿车，而且给出了原因。

与此同时，可提供2000P Flops单集群的昇腾AI云服务在乌兰察布和贵安同时上线。

“千亿规模大模型具备涌现、思维链能力”

不想作诗的盘古大模型3.0，想做的事是面向行业。

这从它的架构上就可以感受到，盘古大模型3.0分为三层：

L0：基础大模型，包括自然语言、视觉、多模态、预测、科学计算；
L1：N个行业大模型，比如政务、金融、制造、矿山、气象等；
L2：更细化场景的模型，提供“开箱即用”的模型服务

其中L0层的基础大模型负责提供通用技能。

模型可分为自然语言大模型和多模态大模型两类。能力覆盖了对话问答、文案生成、图像生成、图像理解等。

预训练数据中包含了超过3万亿tokens，使用了超过1000+TB数据训练，指令微调数据也在千万级。

并且盘古基础大模型是一个可伸缩、高可扩展的稀疏-稠密语言大模型。

千亿级别稠密模型已经具备涌现、思维链能力，构成了底座；通过稀疏化使其成为不同“行业专家”，这样可使得推理过程更加高效。

L1层由N个行业大模型构成。

在这方面，华为使用行业公开数据训练了多个行业通用大模型，如政务、金融、制造、矿山、气象等。

比如气象方面，盘古气象大模型的最新成果刚刚登上Nature正刊，只需要1.4秒就能完成24小时全球气象预报。

此外，行业可以换也能基于自有数据在L0、L1基础上，训练自己的专用大模型。

L2层则提供更加细化场景的模型，主打“开箱即用”。可专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景。

据了解，为快速适配、快速满足行业需求，盘古大模型采用完全的分层解耦设计。

在L0和L1大模型的基础上，华为云还提供了大模型行业开发套件，通过对自有数据二次训练，就可以拥有自己的专属行业大模型。

同时，根据客户不同的数据安全与合规诉求，盘古大模型还提供了公用云、大模型云专区、混合云多样化的部署形态。

华为在最底层构建了以鲲鹏和昇腾为基础的AI算力云平台，以及异构计算架构CANN、全场景AI框架昇思MindSpore，AI开发生产线ModelArts等，能为大模型开发和运行提供分布式并行加速，算子和编译优化、集群级通信优化等关键能力。

基于华为的AI根技术，大模型训练效能可以调优到业界主流GPU的1.1倍。

华为云2000P Flops单集群的昇腾AI云服务在乌兰察布和贵安同时上线。

披露数据表明，昇腾云AI服务的千卡训练30天长稳率达到90%，断点恢复时长不超过10分钟。

除了支持华为的AI框架Mindspore外，还支持Pytorch，Tensorflow等主流AI框架，框架中的90%算子，都可以通过华为的迁移工具从GPU平滑迁移到昇腾。

例如，美图仅用30天就将70个模型迁移到了昇腾，同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速，AI性能较原有方案提升了30%。

气象大模型登上Nature正刊

在展示盘古大模型3.0的基础能力后，华为也对盘古大模型的一系列行业应用做了数据披露。

最近，盘古气象大模型登上Nature的消息刷屏了。

据悉，盘古气象大模型是首个精度超过传统数值预报方法的AI预测模型，同时预测速度也有大幅提升。

原来预测一个台风未来10天的路径，需要在3000台服务器的高性能计算机集群上花费5小时进行仿真。现在基于预训练的盘古气象大模型，通过AI推理的方式，研究者只需单台服务器上单卡配置，10秒内就可以获得更精确的预测结果。

在药物研发领域，原来一款新药研发平均需要10年时间、花费10亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球40年来首个新靶点、新类别的抗生素，并将先导药物研发周期缩短至1个月、研发成本降低70%。

在铁路领域，盘古铁路大模型能精准识别现网运行的67种货车、430多种故障，无故障图片筛除率高达95%，成为货运列检员身边有力的数字助手，将列检员从每日数百万张的“图海”检测中解放出来。

华为常务董事、华为云CEO张平安给最新动向，做了最凝练的总结：

盘古大模型要让每个行业、每个企业、每个人都拥有自己的专家助手，让工作更高效更轻松。

我们始终坚持AI for Industries的战略，在深耕行业的道路上不断前行。我坚信大模型将重塑千行百业，而每一个开发者，都将是改变世界的英雄。

华为云盘古大模型

明敏

华为最新大模型来了！盘古3.0问世，千亿参数规模3万亿tokens，放话「不作诗只做事」

“千亿规模大模型具备涌现、思维链能力”

气象大模型登上Nature正刊

相关阅读

华为云发布智能办公软件WeLink，曾表示“不碰应用”

华为昇腾AI云服务四大升级：搭载CloudMatrix 384超节点，性能领先

训练、标注成本节省90%！华为云自动化AI开发平台ModelArts 3.0发布，从训练数据到模型落地一站式打通

游戏企业通关秘籍：华为云游戏全场景能力，开发+部署+运营“关关难过关关过”

华为云田奇：云原生时代，视觉预训练大模型探索与实践

机器学习服务第一梯队都有谁？权威研究机构Forrester发布最新报告

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此