6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们

十三 2021-08-27 15:02:36 来源：量子位

与时间赛跑，拿下一场漂亮的攻坚战

金磊发自凹非寺

量子位报道 | 公众号 QbitAI

6个月的时间为约定，他们就这样硬生生地打造了个全球领先——华为云盘古大模型：

业界首个千亿级生成与理解中文NLP大模型。

业界最大的CV大模型。

而在这场攻坚战中，华为云人工智能领域首席科学家田奇和团队成员担起了重担。

田奇在学术圈可以说是位老将，但当时的事实却是，他在华为云任职才刚刚满半年。

并且面临的还是“首个”“最大”级别的挑战。

很重要，一定要“啃”下来。

这是田奇在心中默默许下的承诺。

大模型是趋势，更是必争的高地

时间线先拉回到2018年。

当时的预训练模型，可以说是成功激活了深度神经网络，以及对大规模无标注数据的自监督学习能力。

它一定程度上打开了深度学习模型规模与性能齐飞的局面（尤其是自然语言处理）。

国际巨头们在尝到预训练模型带来的“甜头”之后，开始对它展开了激烈的竞争，竞相追逐模型规模和性能的新高度。

例如OpenAI的GPT、GPT-2；谷歌的BERT更是惊艳四座，将自然语言处理推向了一个前所未有的新高度。

更是被当时的学术界、媒体评价为“开启了NLP新时代”。

而在短短两年时间后，OpenAI在2020年发布的GPT-3，参数量已经达到了惊人的1750亿，其能力更是不言而喻了。

……

当时，AI对企业的渗透率逐年提升，正在加速进入千行百业。而华为云也早已将AI作为重要赛道。

但AI的短板也越发地明显起来——AI应用的碎片化。

简单来说，就是团队开发了一个AI模型，但在应用过程中，往往会因为场景的多样性、复杂性，无法达到“以一敌十”的效果。

而大模型所体现出来的惊艳效果，正是强悍的自我学习、应万变的能力。

大模型正在成为AI发展趋势，是必争的高地，“需要且必要”。

于是，华为云盘古大模型团队开始“汇聚英才”，初始团队个个都是NLP、CV的技术专家，同时还集结了一些外部合作伙伴和高校的力量。

这些人最终成为了华为云盘古大模型最为中坚的力量。

不过在此之后，第二个问题也随之而来——该怎么做？

当时大模型在国内外的情况是：国外对NLP大模型的关注度较高，而且已经取得了较好的成绩；但国内外对CV方面的大模型关注度都不高。

基于这样的一个现状，田奇团队很快便找到差异化的突破口：

从CV着手，与NLP并行；二者结合语言、图像，搞多模态；最后还有一个科学计算。

当然，大模型四个大方向的制定，也是以华为云自身业务为出发点。

不难看出，田奇团队要打造的大模型，不再是一个方向的“单项选手”，而是全能型的那种。

也正是由于打造大模型的必要性，以及打法的差异化，2020年11月，“华为云盘古大模型”的设想在内部立项成功！

……

好的开局已经铺设好，但接下来的路才是攀峰的开始。

虽说得益于华为在AI领域已有的功底：左手一个CANN算子 （异构计算框架），右手MindSpore （全场景AI计算框架）和ModelArts（一站式AI开发平台），工程方面的挑战并没有成为最大的阻力。

反倒是那些非技术问题，成为了团队最大的压力。

他们面临的第一个困难，便是“与时间赛跑”。

从国外的BERT到GPT-3，以及它们的各种“衍生品”；再到国内友商们在大模型上的发力。

很明显的一个趋势是，参数规模在不断扩大、能力在大幅提升，而迭代的速度却越来越快。

正因如此，留给他们打造盘古大模型的时间是真的不多，而且一开始田奇团队人数也并不充裕。

为了解决这个问题，田奇给他的团队成员们封了一个称号——特战队员：

我们在做NLP、CV和多模态大模型的时候，团队成员的身份是会互换的。

比如一个CV专家，可能也会去参与NLP和多模态大模型的开发，甚至他的CV知识都会灵活运用到其它领域中。

而且在后期，这些技术专家们还需要更长远地去考虑商业化模式方面的问题。

这还不算完，在处理诸如医疗方面的问题时，团队成员还得跟医学等行业专家“登门请教”。

因为唯有如此，才能让大模型在应用的过程中拿捏得住。

一人多用，是有种特战队员的意思了。

除了时间，数据和资源又是一道大坎。

毕竟要训练大模型，数据是必不可缺的要素；而训练，又需要消耗大量的算力。

比如训练一个千亿参数的盘古NLP大模型，可能需要2000块v 100甚至更多的机器，一起跑上5、6个月。

为此，田奇团队采取的对策，总结为一个词就是——合作。

例如数据方面，他们便找到了气象局等合作伙伴；资源、算力方面，又寻求与鹏城实验室进行合作。

但可想而知其间过程的复杂，谈下来合作的难度，定然不会是一蹴而就的事情。

……

就这样，零星的几个人为了一个共同的目标，排除万难地熬过了这样的大半年时间。

是上阵的时刻了

2021年4月25日，这是属于田奇和“特战队员”们的高光时刻。

在这一天，一年一度的华为开发者大会（HDC.Cloud）隆重召开，余承东也前来站台。

但纵观整场发布会，主角之一就是田奇和团队成员们打造的华为云盘古大模型。

“Hi，盘古”，这一声久违了的唤醒，终于让田奇在公众面前说了出来。

田奇：什么样的车没有油也可以跑？

盘古：新能源车和自行车没有油都可以跑。当然，还有玩具车。

田奇：什么是碳中和？碳排放主要来自于哪些行业？

盘古：碳中和就是把人为排放的二氧化碳，通过植树造林、节能减排等形式抵消掉，从而使得释放到大气中的总碳量净值为零。目前发电和供热行业、制造和建筑业是主要的碳排放行业。

……

这便是他与盘古流畅且超出众人意料的对话，盘古的常识推理等能力展露无疑。

田奇进一步解释道：

这段话的背后盘古模型阅读和理解了大量的相关文章，通过小样本学习对意图进行识别，转化为知识库和数据库查询，并根据返回的结果，生成最终的答案。

这种方式与GPT-3等仅基于端到端生成的方式不同，可以更准确地处理复杂场景，结合领域知识，具备更大的商业价值。

而通过这一次的亮相，华为云盘古大模型更加详细的全貌也一并公布了出来。

先观其貌，横揽AI领域四大热门方向：

自然语言处理（NLP）大模型
计算机视觉（CV）大模型
多模态大模型
科学计算大模型

再闻其详，纵达业界能力之最：

华为云盘古NLP大模型：是业界首个千亿参数中文语言预训练模型，预训练阶段学习了40TB中文文本数据，是最接近人类中文理解能力的AI大模型。
华为云盘古CV大模型：是目前业界最大的视觉预训练模型，包含超过30亿参数。

具体来说，当时盘古NLP大模型在权威的中文语言理解评测基准CLUE榜单中，总成绩及分类、阅读理解单项刷新三项榜单世界历史纪录，总成绩得分83.046。

而盘古CV大模型，则在ImageNet 1%、10%数据集上的小样本分类精度上，达到了业界最高水平。

而更为重要的，华为云盘古大模型的真·奥义，实则是直击痛点——天下苦AI开发久矣。

即便到了现在，AI开发的过程，较为贴切的比喻应该是“作坊模式”，换言之，就是需要手动的工作太多、太频繁。

而华为云盘古大模型所提供的方式，可以理解为工厂模式。

具体来说，就是“预训练+下游微调”，这也是与目前全球主流大模型（如Bert）所匹配的一种模式，拥有极强的泛化能力。

换言之，这个模型可以做到“举一反三”。

……

但要说上阵，真正一层的含义并不是在发布会上的首秀，而是下场去在真实场景中发挥它的作用和价值。

这也是令盘古大模型团队成员们更为激动的事情。

据了解，截至目前为止，华为云盘古大模型已经在多个行业，100多个场景中发光发热，包括能源、零售、金融、工业、医疗、环境、物流等等。

“就很神奇”、“非常激动”。

这是来自于盘古大模型的服务客户——国网重庆永川供电公司技术人员的真真实实的反应。

这家公司是国内最早应用无人机电力智能巡检技术的电网企业之一。

传统的无人机智能巡检AI模型开发主要面临两大挑战：

一是如何对海量数据进行高效标注。
二是缺陷种类多达上百种，需要数十个AI识别模型，开发成本高。

而盘古CV大模型的到来，就很好地解决了这两大难题。

例如在数据标注方面，盘古 CV 大模型利用海量无标注电力数据进行预训练，并结合少量标注样本微调的高效开发模式，提出了针对电力行业的预训练模型。

在应用之后，样本筛选效率提升约30倍，筛选质量提升约5倍：以永川每天采集5万张高清图片为例，可节省人工标注时间 170 人天。

而在模型通用性方面，结合盘古搭载的自动数据增广以及类别自适应损失函数优化策略，可以做到一个模型适配上百种缺陷。

具体来说，一个模型就可以替代永川原先的20多个小模型，极大地减少了模型维护成本，平均精度提升18.4%，模型开发成本降低90%。

在应用华为云盘古大模型的前后，效能差距之大，也难怪客户会发出如此的感叹了。

披荆斩棘的科学家“哥哥们”

田奇，就是在华为云盘古大模型背后披荆斩棘的“哥哥们”中的一个。

田奇本科毕业于清华大学电子工程系，硕士毕业于美国德雷塞尔大学，后赴美国伊利诺伊大学香槟分校学习，师从Thomas S. Huang教授，并获得博士学位。

在2002年至2019年期间，田奇历任过美国德克萨斯大学圣安东尼奥分校计算机系助理教授、副教授、和正教授。

他在学术界这一呆，便是十七载。

在学术界的这些年，说田奇是“蜚声中外”一点都不足为过：

在计算机视觉及多媒体方向顶级期刊及会议如IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM上发表文章超过650篇。
谷歌学术引用次数超过30700次，h指数为83，有8篇论文获最佳论文奖或者最佳学生论文（截止2021年8月）。

田奇于2017年UTSA校长杰出研究奖、2018年入选国家级领军人才创新项目。他还是国家自然科学基金海外杰青、中国科学院海外评审专家、IEEE Fellow（2016）、国际欧亚科学院院士（2021）。

……

然而，就在一片美好未来的学术道路中，田奇在2018年，却作出了一个改变人生轨迹的决定：

离开学术界，加入华为诺亚方舟实验室，出任计算视觉首席科学家。

为什么会如此？

田奇对此解释说：

我在德克萨斯大学圣安东尼奥分校做了17年的老师，教的本科学生换了一批又一批，永远是18岁到22岁。

但我一直希望能够将我们共同做过的东西投入到真实场景中，看能不能给社会提供作用、发挥价值。

从中不难看出，其实在田奇的内心中，一直是有一颗科技向善的种子，他想把技术用起来，要让技术改变人们的生活、改善产业的运作。

当然，田奇所在的盘古大模型团队、以及“特战队员”们，也是拥有着同样的理想。

值得一提的是，团队在组建之后其实是在不断壮大中的，如今已包括3位华为天才少年、20多位博士、30多位工程师和50多位来自C9高校的参与者。

他们夜以继日地付出和拼搏，为的是一个共同目标：

引领工业化AI开发的新模式，降低AI使用的门槛，实现低成本、大规模的复制。

当然，除了田奇和他的队员们，盘古大模型的成功出道，同时也离不开华为云各部门之间的整体协作和付出。

最后，对于盘古大模型接下来的发展计划，田奇表示：

大模型不光是一个算法、架构这么简单，它实则是一个产品。

而一个真正的产品和一个模型之间，还有很长的一段距离。

这个里面牵扯到各个环节：如何持续打磨这个产品的质量，让它的用户体验、性能会越来越好。

以及在性能、体验提升的过程当中，又如何做到尽可能的减少碳排放，做到绿色AI，这也是田奇和团队要发力的地方。

……

那么华为云的科学家们，能带着固有的初心，将盘古大模型这个产品打磨到何种程度？

是值得拭目以待了。

BERT综述：

https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage

HDC直播：

https://live.huawei.com/hdc2021/meeting/cn/8283.html

CV NLP 华为云田奇

十三

6个月火速炼成千亿参数大模型！背后是披荆斩棘的华为云哥哥们

大模型是趋势，更是必争的高地

是上阵的时刻了

披荆斩棘的科学家“哥哥们”

相关阅读

谷歌实习生新算法提速惊人！BERT训练从三天三夜，缩短到一个小时

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品

300行代码实现“迷你版GPT”，上线三天收获3.3k星

微软发布史上最大AI模型：170亿参数横扫各种语言建模基准，将用于Office套件

语言模型GPT跨界CV，OpenAI揭示强算力Transformer具有通用性

热门文章

AI应用突围，中小企业的新周期已至

全球首个Linux开发本：50TOPS算力，DeepSeek都配好了，可随地大小开发

GPT-4o图像生成架构被“破解”了？自回归主干+扩散解码器

阿里云造“Agent工厂”，百炼MCP服务上线，无需代码5分钟建Agent

倒计时1周！20余位行业大佬共话AI，中国AIGC产业峰会最全攻略在此