AIGC独角兽官宣联手，支持千亿大模型的云实例发布，“云计算春晚”比世界杯还热闹

梦晨 2022-12-02 17:52:19 来源：量子位

AIGC独角兽背后的秘密

梦晨发自凹非寺
量子位 | 公众号 QbitAI

现在AI最火的方向是什么？那必须是AIGC（AI Generated Content，利用人工智能技术来生成内容）。

AIGC最火的公司是谁？莫过于开源AI作画模型Stable Diffusion背后的StabilityAI。

对于这家新晋独角兽，最近两条动向值得关注：

产品上，Stable Diffusion 2.0正式发布，生成图像质量大幅提升，分辨率也支持到2048×2048甚至更高。
战略上，与亚马逊云科技达成合作，继续构建图像，语言，音频，视频和3D 内容生成模型。

StableDiffusion其实由三部分组成，语言编码器、生成图像信息的扩散模型、以及图像解码器，1.0版本训练阶段足足用了256块英伟达A100，跑了15万个GPU时。

开发像这样的大模型，对于创业公司来说其实困难重重：

数据准备、模型开发、训练调优到部署等，每一个环节都不简单。
训练和推理阶段要兼容不同芯片，还要考虑到与各式各样业务的整合交付。

总之在算法以外还有很多让人头痛的地方，这也就是他们选择与亚马逊云科技合作背后的几点考虑了。

首先是看中Amazon SageMaker，亚马逊云科技的旗舰级托管式机器学习服务，可以帮助开发者轻松快速地准备数据，并大规模地构建、训练、部署高质量机器学习模型。

第二是在亚马逊云科技自研的Trainium训练芯片支持下，训练时间和成本可以减少58%。

最后是在亚马逊云科技帮助下可以把模型开放给更多学生、研究人员、创业公司和企业。

现在Stable Diffusion 2.0还与Amazon SageMaker完成集成，通过其JumpStart服务，用户只需点击下鼠标就可轻松部署预先训练好的模型。

毕竟他们的口号是“要让全球10亿人用上开源模型”。

StabilityAI与亚马逊云科技合作，是在刚刚举办的亚马逊云科技re:Invent大会上宣布，也就是业内常说的“云计算春晚”。

今年大会上也发布了多项内容，从不同方面改进AI开发者的体验。

“云计算春晚”发布了什么AI产品？

首先来看Amazon SageMaker，今年是其发布的第五年，各行各业已有数百万个机器学习模型使用该服务管理，每月进行数千亿次的预测。

今年最重磅的新功能是机器学习治理工具Amazon SageMaker ML Governance，具体来说有3个新工具：

Role Manager，可以在几分钟内为SageMaker 用户定义自定义权限，区分算法工程师、运维工程师等不同角色。
Model Cards，可以发现并自动填充诸如训练作业、训练数据集、模型构件和推理环境等细节，还可以记录模型的详细信息，例如模型的预期用途、风险评级和评估结果。
Model Dashboard，更是可以通过统一的仪表板监控所有部署的模型。

在这些工具帮助下，可以简化访问控制，提高机器学习项目的透明度。

接下来是Amazon SageMaker Data Wrangler再次新增40多种新的数据源，可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。

还有一个有意思的更新，是增加对地理空间数据（Geospatialdata）的机器学习支持，如卫星、地图和位置数据。

具体来说简化了利用地理空间数据创建、训练和模型部署的全过程，还可以在Amazon SageMaker的交互式地图上分析和探索、分享机器学习预测结果。

交通、物流、零售，甚至自然灾害监测等行业都可从中受益。

看过机器学习平台，再来看算力方面，这次的更新重点是对大模型的支持。

最新发布的Amazon EC2 Inf2，针对机器学习推理优化的虚拟机实例，与上一代Inf1相比有4倍吞吐量提升、延迟降低到十分之一。

Inf1对当时常见的中小模型来说恰到好处，但随着大模型逐渐实用化，对更高规格推理实例的需求也在增长。

Inf2专为部署当今最严苛的深度学习模型而设计，是第一个支持分布式推理的Amazon EC2 实例，在自研Inferentia2推理芯片支持下可以运行高达 1,750 亿参数的大模型。

也就是跑个GPT-3级别的大语言模型或者Stable Diffusion这样的图像生成模型等都不在话下。

早些时候，亚马逊云科技还发布了Amazon EC2 Trn1，为机器学习训练打造，与基于GPU的同类产品相比，可节省高达50%的训练成本。

AI开发如何走向规模化？

事实上，亚马逊云科技已建成一套最完整的机器学习和AI服务。

最底层是对CPU、GPU、自研AI加速芯片等不同算力的兼容，以及对各主流深度学习框架的原生支持。

中间Amazon SageMaker，包括机器学习集成开发环境（IDE）、模型调试器、模型监视器、模型分析器（Profiler）、AutoML、特征存储、无代码开发能力以及首个专用的持续集成和持续交付（CI/CD）工具等全面机器学习能力。

最上层还有一系列开箱即用的AI服务，NLP、视觉、语音核心能力，以及面向不同应用场景和行业的专业服务，如自动将语音转换为文本的Amazon Transcribe，以及辅助代码开发的Amazon CodeWhisperer。

靠着这一套完整的AI服务，即使是像Stability AI这样员工仅有100人出头的创业公司，也能做到机器学习开发的规模化、工程化。

实现途径之一是面向云原生开发。

云原生，标准定义是云计算时代一种构建和运行应用程序的方式，充分利用和发挥云计算平台的弹性和自动化优势，结合容器、微服务、无服务器 (Serverless) 等技术来构建现代化应用。

如果还不好理解，不妨“以史为鉴”一下。

传统的软件、APP开发如今已相对成熟，这是因为操作系统承担了很多工作。

包括向下与硬件的沟通工作、向上为上层应用制定好了很多标准和规范，软件开发只需面向特定的操作系统，就可以专注于功能实现。

到了AI时代，AI产品更多以服务的形式跑在云上，云计算平台就要承担起这个承上启下的角色，实现AI开发的标准化。

云原生给AI开发带来的好处，可以总结为几点：

敏捷，靠无服务器 (Serverless) 技术可以将管理基础设施的工作全部交给云服务商，开发者专注于实现业务逻辑。

全面，亚马逊云科技为汽车、金融、制造等多个行业提供解决方案，同时有无代码开发平台Amazon SageMaker Canvas等满足不同水平开发者需求。

高性价比，这方面有专为机器学习训练打造的训练芯片Trainium、推理芯片Inferentia提高性能，配合弹性可扩展的按需云计算资源分配机制。

在此基础上，就可摆脱“小作坊”进一步实现AI的工程化，或者叫MLOps，包括：

建立可重复的训练工作流程以加速模型开发
集中编目机器学习构件，用于模型可再现性和治理
将机器学习工作流程与 CI/CD 管道集成，以加速投入生产
持续监控生产中的数据和模型，以保持质量

Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势，IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。

除了已有的产品和服务之外，云计算未来的发展更是值得关注。

操作系统为什么倍受重视？因为在那个位置上，每一点微小改进都能带来很大的收益。

云原生AI格局下，云计算基础架构也是如此，每一点创新都能对AI开发效率带来很大的提升。

像这的产品和服务创新，每年底的亚马逊云科技re:Invent大会上都会带来数十款。

亚马逊云科技也连续12年蝉联Gartner云基础设施和平台服务魔力象限领导者，成为这一魔力象限的最长领跑者。

看到这里，对AI开发从工具到基础设施，从验证开发到大规模部署全方位加速创新的时代，你期待吗？

云计算亚马逊云科技

梦晨

AIGC独角兽官宣联手，支持千亿大模型的云实例发布，“云计算春晚”比世界杯还热闹

“云计算春晚”发布了什么AI产品？

AI开发如何走向规模化？

相关阅读

飙着车学「机器学习」？要不是380万人围观我都不敢相信

亚马逊在中国的另一面

不敲代码就能搞机器学习？亚马逊云科技这回放了个大招

华为这台「技术暴力输出机」，亮出「云原生2.0」，研发效率飙升10倍！

AR眼镜走向独立，从一个配件开始

游戏企业通关秘籍：华为云游戏全场景能力，开发+部署+运营“关关难过关关过”

热门文章

业界首创，海螺集团携手华为发布水泥建材人工智能大模型

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

分化浪潮中的投资新局｜第19届中国投资年会·年度峰会在京召开

智能车速度刷新：仅10个月，首个纯端侧大模型上车量产！

特斯拉Q1净利润腰斩，马斯克宣布重心回归公司