北大毕业的山区小学校长，给清华老朋友派了一个紧急任务

十三 2021-12-29 16:54:20 来源：量子位

给孩子们送一件特殊的新年礼物

金磊梦晨发自凹非寺

量子位报道 | 公众号 QbitAI

北大智能科学系毕业之后，乔丹做了好几年程序员。

然后他选择让人生驶入另一条轨道。

今年9月，乔丹来到四川大凉山支教，成为美姑县采红村晓明爱心小学的校长。

美姑县山高谷深，曾经是大凉山里最闭塞的县。

经过数年的脱贫攻坚，这里通路通网，吃穿基本不愁，学校的硬件设施也都不错，但孩子们对大山之外的认知仍然有限。

如何利用自己所长，开拓孩子们的视野，启发他们对科技的兴趣？乔丹觉得最好能让他们亲眼见一见科技产品。

不久前，乔丹给老朋友任星打了一通电话。任星今年刚从清华博士毕业，现在是华为云的研究员。

乔丹想邀请他来给爱心小学的71个孩子上一堂科技课。

经过一段时间筹备，这次让孩子们期待已久的科技课堂，终于在12月下旬到来。

任星和同事们带来精心准备的生动课程内容，比如AI技术如何用于保护雨林和大熊猫。

也带来许多新奇有趣的科技产品，包括VR眼镜、机器狗，还有能和孩子们互动的数字人“云笙”。

还有一件特殊的新年礼物。

紧急任务

美姑县冬季长达135天，山上风大，昼夜温差也大。

尽管当地已基本实现不愁吃不愁穿，但孩子们长得快，正处于活泼好动的年纪，很需要新的能御寒的冬衣。

这个看似简单的需求，却是一个不小的挑战。

一方面，这件冬衣需要适应山区孩子的需求。需要保暖防风、耐磨耐脏，还要内外两层设计并容易穿脱以应对昼夜温差。

另一方面，这样一套冬衣，传统上仅设计打样就大致需要3周，在这个流程下，根本来不及在新年前，把生产好的冬衣送到孩子们手上。

不过科技公司就有科技的办法，能让一项看似无解的紧急任务峰回路转。

此次冬衣设计方案，由AI与服装设计师联手完成，整个过程仅用了不到一周。

主设计师是来自广东时谛智能的刘晓茜，她带来了时谛智能的全链路数字化解决方案。

AI能力则来自华为云的盘古大模型。

更具体一点，是盘古系列中的多模态大模型。

模态，指的是文字、图像、视频等不同的信息表现形式。

多模态则是把不同类型数据结合起来，比如一张图像搭配上一段文字组成一对让AI去学习。

像这样的图文对，盘古多模态大模型学了10亿组，理解了图像与文字之间的联系，获得“以文生图”的能力。

在此基础上继续学习十万级时尚产业数据，得到更具体的根据描述生成服饰图片能力。

△华为云盘古多模态大模型服饰生成示意图，仅为文章配图，内容不做商用

在企划阶段，以往服装设计师会花大量时间在搜集资料、看参考上。

像是哪些颜色和图案正在流行？又有哪些面料符合项目需要？

根据调研结果，设计师收集素材的时间往往占整个制作周期的70%以上，真正花在设计上的时间仅为30%。

现在有了AI以文生图能力的帮助，设计师只需输入关键词就得到盘古多模态大模型生成的大量服饰图片作参考，而且这些款式都是独一无二的。

这就让设计师能够根据推荐结果快速积累灵感，节约大量时间。

盘古多模态大模型还针对时尚行业需求做了降低显存占用、提高推理速度等一系列优化。

当前在华为云提供的V100单卡上可实现分钟级推理，一次批量呈现128张服饰图片。

让设计师有了思路就能快速看到结果，避免重复消耗时间和精力，让灵感不被打断。

从AI的推荐中挑选出合适的款式后，设计师们争取了大量时间，得以快速进入更细致的二次创作阶段。

考虑到大凉山昼夜温差大、孩子们好动、长得快等因素，刘晓茜一方面将目光聚焦在了方便穿脱的两件式设计。

另一方面决定采用耐磨耐脏、防风防水的外层材质。这与盘古大模型推理生成的“派克服”款式不谋而合。

刘晓茜和其他设计师们根据盘古大模型批量提供的“派克服”参考版式，快速绘制出服装线稿。

随后将线稿和具有彝族特色的图案，如象征吉祥、美丽、幸福的马樱花纹，羊角纹，窗格纹等，导入时谛智能AI服装设计系统，在线对其进行材料、颜色、图案的搭配。

有了华为云提供的数据和云端算力，加上时谛智能的实时渲染技术，方案效果可以用真实3D渲染呈现。

修改也同样方便，时谛智能的在线协同设计平台支持云端及时修改，省去了反复打样的步骤，将设计周期从三周缩短到一周以内。

一套适合大凉山孩子的新年冬衣方案，就此快速面世。

除了缩短设计流程这个量变，AI和云技术也给服装设计行业带来质变。

多模态大模型可以依据大数据分析流行趋势，推荐流行的颜色、图案等元素，帮助设计师洞察消费需求。

具体这次冬衣项目设计中，盘古多模态大模型在短时间内向时谛智能设计师提供了两三百个方案，包括羽绒服、派克服等。

设计师只需从中选择最好的再作进一步精细调整，这对最终成品的质量也是一种提升。

在设计完成后的生产阶段，时谛智能利用其在时尚产业丰富的供应链资源储备，进行了服装的快速生产、二次加工。

在设计过程中得到的渲染结果图等数字资产也能直接用于制作宣传物料。

这样看来，华为云与时谛智能联手真正要做的，其实是用技术帮助传统服装产业数字化转型。

而远在大凉山的孩子们，在种种机缘巧合下成了第一批见证这一转型成果的人。

接下来，不妨再看看故事的另一面。

从技术角度深入了解一下，是什么支撑着这一切成为现实。

单卡就能用的大模型

华为云盘古多模态大模型，是华为云盘古系列大模型之一。

此外还包括NLP大模型、CV大模型和科学计算大模型。

它的开发模式与BERT这样主流的大模型相匹配，采用的是一种“预训练+下游微调”的方法。

而之所以采用这种模式，是因为它的一大优点就是极具泛化能力。

通俗一点来说，就是可以做到“触类旁通”、“举一反三”。

华为云盘古大模型在训练自己的时候，也算是个“狠人”，用的是亿级图文对。

在这种参数规模的预训练之下，华为云盘古多模态大模型便有了较强的通用、泛化能力。

而在下游微调阶段，针对此次案例，它基于此再使用10万级的时尚产业数据做微调。

这样AI就理解了服装设计领域上更具体的知识。

比如，“羊毛精纺”对应哪种面料，“西装”对应哪种衣服，甚至“女士西装”都有哪些版型。

再把这些不同维度的知识组合在一起，多模态大模型就有了“以文生图”的核心能力。

虽然这种“两步走”的方法看起来比较简单，不过单是在预训练过程中，面对亿级别的参数量，效率便成为了一个老大难的问题。

对此，华为云盘古多模态大模型有自己的妙招：

左手CANN算子，右手MindSpore框架。

CANN是华为推出的异构计算架构，2018年推出1.0版本至今，已经迭代到了3.0版本。

目前它不仅可以在推理、训练场景中使用，还能够实现“端边云协同”。

这就意味着不必在不同的终端，再去开发不同的算子，大大提高了效率。

例如基于CANN，就能让ResNet-50模型的训练时间降低到28s。

MindSpore则是华为于2019年推出的全场景AI计算框架，其中的一大特色，就是具有全自动混合并行方案。

而华为云盘古大模型，基于这两大“法宝”之外，还融合了三种并行技术：模型并行、数据并行和流水线并行。

并且在算法层面上，华为云盘古多模态大模型还运用了渐进式可微分网络架构搜索、动态权重软标签生成等技术。

如此一套“组合拳”下来，即便是面对亿级海量参数，也能够大幅提高模型预训练的效率。

那么这个效率提高到了什么程度呢？

举个例子。

以往面对亿级的数据量，如果只用单节点8卡V100来训练，那么所消耗的时间就得按年来计算了。

而在华为云盘古多模态大模型这边，训练速度已经降至天的单位！

当然，“预训练速度快”只是华为云盘古大多模态模型的优势之一，它另外一个强项，就是擅于处理数据量少、小样本的问题。

关于这点的能力，已经在一些全球范围内公开的任务中有所体现。

例如在COCO以文搜图的零样本任务中，盘古多模态大模型已经超过业界标杆算法CLIP、ALIGN等，达到业界最佳精度。

华为云盘古多模态大模型的第三个特点，便是把“作坊式”的工作流程转变为“工厂模式”。

简单来说，就是不需要开发者参与太多频繁的手动工作：从零开始、独立调优、艰难迭代、推倒重来……

而是将传统的这些流程变得智能化和自动化，例如华为云盘古多模态大模型便提供了云服务化的AI开发工作流。

这就可以让下游用户，在模型准备到超参调优等环节中，只需要少量的样本数据，以及对模型提出性能要求就可以了。

而且不仅是训练速度快，在后续的推理过程，其效率也是极高。

例如在服装设计这个案例中，当前盘古多模态时尚大模型利用Attention Cache等技术加快推理速度，在华为云提供的单卡V100支持下，可以支撑分钟级推理速度。

……

以上便是华为云盘古多模态大模型，能够做到“节省70%时间，三天出数百方案”背后的原因了。

不仅如此，目前华为云还把这样的能力，更确切来说是接口，已经开放给了多家时尚设计公司调用。

但它要做的事情，还远不止于此。

盘古多模态大模型，还能带来些什么？

从信息处理的历程来看，多模态信息融合已然成为发展的必然趋势。

而华为云要做的，就是用“大模型”的方式，让这种进程加速度。

换言之，就是要将生活中普遍存在的信息元素（图像、声音、文字、味道、触感等），糅合到一起来处理。

并且还需得用高效的方式，对事物进行理解、思考和推理，以此来实现更高级的智能应用。

而这种方式，也被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。

以这次在服装时尚行业的应用为例，正如刚才所述，华为云通过盘古多模态大模型的技术，加上时谛智能的全链路数字化解决方案，让设计这件事从传统的30天，一下子跃进到一周内。

在帮助提高效率的同时，还让设计师能够把更多的精力，投入在对服装设计的二次创作上。

但这只是华为云盘古多模态大模型“出道”目标的一隅，它目光所聚焦的是将这种能力拓展到更多的行业。

正如盘古研发团队所述：

将继续对盘古多模态大模型进行迭代演进，持续开发上游通用能力。

让盘古多模态大模型，演化成诸多盘古行业多模态大模型，从而加速盘古系列预训练大模型的上天（通用能力打造）与入地（行业落地）步伐。

而从更宏观的角度来看，华为云所做的事情，主旋律在于“改变”。

具体而言，就是通过科技、AI的力量，来改变人们的生活、生产方式。

这不，大凉山彝族的小朋友们便率先体验到了科技带来的改变和温暖。

而华为云盘古多模态大模型，也是这个主旋律中的一角。

那么华为云在接下来，又将会如何体现科技力量的温度呢？

值得拭目以待了。

华为云多模态盘古大模型

十三

北大毕业的山区小学校长，给清华老朋友派了一个紧急任务

紧急任务

单卡就能用的大模型

盘古多模态大模型，还能带来些什么？

相关阅读

预测未来一周全球天气要多久？华为云：给我几秒钟

「大一统」大模型论文爆火，4种模态任意输入输出，华人本科生5篇顶会一作，网友：近期最不可思议的论文

爱奇艺多模态技术沙龙 | 爱奇艺路香菊：视频人物识别关键技术及其应用

香港大模型公司Weitu AI首秀，打造多模态Native的技术和产品

大厂们“秀肌肉”新路数：用AI搞虚拟雪花，连区块链、云渲染都用上了

钉钉AI：好险，差点就被长文本卷到

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把

中国AI投资五小龙：南林北曹，东剑西米，中王淮；清一色985理工科背景