给ChatGPT搞双眼睛,《流浪地球2》MOSS有影儿了

为预训练大模型引入更多模态

允中 发自 凹非寺

量子位 | 公众号 QbitAI

上线不到一周日活跃用户破百万,2个月破亿……

OpenAI的AI聊天机器人ChatGPT火爆全球,成为现象级消费类AI应用,并由此引发新一轮的AI竞赛。

率先卷起来地,当属搜索赛道:

谷歌发布基于谷歌LaMDA大模型的下一代对话AI系统Bard;

百度官宣了正在研发的文心一言(ERNIE Bot)项目计划在3月完成内测;

微软推出由ChatGPT支持的最新版本Bing(必应)搜索引擎和Edge浏览器。

ChatGPT为什么会如此出圈?应用在搜索领域乃至其他领域又有哪些壁垒和挑战?

ChatGPT“出圈”源自底层技术突破

受益于长年AI技术研发积累、深度学习技术突破、算力提升、大数据积累等因素,ChatGPT的出现让所有搜索巨头倍感压力:

一方面是因为搜索的产品模式多年来的变化不大;另一方面则是因为ChatGPT展现出的对话能力让人心惊,毕竟“聊天机器人+搜索引擎+文本生成器”太像一场降维式打击。

Google Gmail的创始人Paul Buchheit也说:

ChatGPT将像搜索引擎杀死黄页一样摧毁谷歌

面对可能的未来,微软打出的牌是“新必应”。

由OpenAI提供技术支持的新必应在吸取了 ChatGPT 和 GPT-3.5 的重要经验和进步上,开发了名为Prometheus(普罗米修斯)的新模型,让回答结果更相关、更及时和更有针对性,同时提高安全性。

同时,新必应加入了基于实时信息的最新结果(此前ChatGPT的模型训练仅涵盖到2021年)。在功能体验上的升级则主要包含,“问答搜索”功能被直接嵌入搜索引擎,以及人工智能聊天模式的切换。

目前来看ChatGPT之于搜索引擎的技术价值,更多是“加持”和“增强”,帮助人们从搜索和网络中更快速地获取更为准确的结果,至于“摧毁谷歌”的言论则更像是一种产品方向,而非具体结果。

甚至,陷入焦虑的并不止“谷歌们”,越来越多的普通人开始担心自己的工作会不会被人工智能取代,毕竟,随着技术发展的加速,它将持续应用于社会经济与行业的更多实际场景,一时间,程序员、设计师、市场研究分析师、广告媒体行业、新闻行业等似乎都成了“高危职业”。

真的如此吗?

为预训练大模型引入更多模态

ChatGPT的出现意味着自然语言理解技术迈上了新台阶,理解能力、语言组织能力、持续学习能力更强,其惊艳的用户体验源自于背后强大基座模型,技术层面上,Chat不是重点,GPT(Generative Pre-training Transformer,预训练生成模型)才是。

特别是预训练大模型表现出的理解能力、语言组织能力以及持续学习能力,已经开始显示出它成为社会智能基础设施的趋势,即少量企业通过预训练大模型的能力与产品为大量企业基于提供基于此的个人消费及行业应用。

具体来说,绝大多数B端企业及研究机构对人工智能的使用需要遵循算法、算力和数据三位一体的研究范式,即以一定的算力和数据为基础,使用开源算法框架训练智能模型,这直接产生了高昂的技术成本和应用门槛,而面对千行百业中碎片化、多样化、长尾化的下游应用需求,模型通用性、泛化性差的问题更加突出。

AI 预训练大模型模式通过“预训练大模型+下游任务微调”的方式,可以有效地从大量标记和未标记的数据中捕获知识,极大地扩展了模型的泛化能力。

应用视角下,“大规模”和“预训练”的两种属性意味着预训练大模型可以通过非常低成本的微调快速适应新的产业、领域、行业,实现跨模态、全链路的知识积累、沉淀、传播、复用。

特别是行业级应用意味着将有更专业、更复杂、更多变的应用场景,需求的呈现可能包括画面、声音、视频等多样的形态,仅仅基于自然语言的大模型并不能够满足各种行业场景中的个性化需求。那么,在语言理解之上引入图像、音频和视频等模态,让“ChatGPT”拥有语言思维的同时,还能够被赋予眼睛,那将会是什么样的新物种?

甚至有点《流浪地球2》的MOSS那味了。

联汇科技自2019年已经将预训练大模型的创新要点锚定在跨模态领域。

自研OmModel多模态预训练大模型是业界最早的语言增强视觉识别模型之一,基于大规模自监督学习的多模态人工智能算法,融合语言和视觉模态理解,实现下一代认知域人工智能应用场景落地。

已完成基于行业的亿级图片、万级视频、十亿级图文大规模预训练,用更小的标注样本数量,融合更多的模态信息,获得更为准确的AI模型。

OmModel是百亿级参数大模型,识别精准度大幅度提高,训练数据成本降低90%,开发周期由平均3个月缩短为10天,可有效覆盖大量长尾应用场景。实现亿级多模态数据秒级匹配,匹配速度在GPU环境提高5倍以上、在CPU环境提高300倍以上,推理速度提高5倍以上,大幅度降低多模态大模型部署成本。

OmModel不仅是国内首个通过工信部信通院大规模预训练模型系统检验的大模型项目,在多模态技术能力和平台能力方面表现优异,并作为技术平台提供方参与工业和信息化部、科学技术部共同主办的首届“兴智杯”全国人工智能创新应用大赛,更为运营商、电力能源等各行业参赛企业应用提供技术及平台保障。

在ECCV 2022挑战赛中斩获Full-Shot(全量数据学习)赛道与Few-Shot(小样本数据学习)赛道双料冠军,更被国际知名市场调研机构IDC评为多模态AI大模型领域领先代表。

更简单的理解是,同为预训练大模型,ChatGPT的能力是在自然语言层面,而OmModel则完成了文字、画面、音视频等多模态的扩展与融合,这意味着OmModel可以以更为多样、丰富的产品及应用形态赋能千行百业。

场景驱动AI下的创新应用已经开始

联汇针对运营商、视频云、能源电力、智联网等各类企业客户及需求,通过建设视频AI业务平台、SaaS平台服务等多样的服务方案,加速OmModel与OmVision已经在众多行业和领域完成落地应用,围绕客户需求及应用场景,帮助用户形成自主的AI技术框架与算法能力,产出不同的算法与技术方案。

例如拥有大量视频数据的运营商,在他们的视频云平台建设中如何实现不同场景的智慧管理?

联汇科技通过预训练大模型技术,实现一个模型应对N个场景,算法建模实现大规模复制调整与创新,形成具有运营商特色的预训练大模型,为其视频云业务的拓展提供预训练大模型技术支撑。

内置预训练大模型的视频云平台有着显著的平台优势:

  • 视觉算法操作系统内置预训练大模型,可以通过一个大模型支撑所有的应用算法能力服务;
  • 基于算法运行平台能够快速适配视频云用户应用场景,实现根据每路视频流进行单独算法管理和调优,增强算法抗干扰能力;
  • 通过运行平台充分利用算力资源减低应用成本;
  • 可以灵活选择所需要的能力,并且快速建立新的落地场景,提升视频云的灵活性和竞争力。

针对智慧化升级的电力企业,在基层无人机电路巡检的业务场景下,存在输电线路小部件典型缺陷识别准确率不高、识别系统运行速度慢、识别结果依赖人工复核等棘手问题,联汇科技推出针对输电线路多模态数据的人工智能预训练算法,以及针对小部件缺陷的图像分析模型,提升输电线路小部件典型缺陷检出率和识别精度,并通过蒸馏算法,实现缺陷检测模型的参数压缩,提高模型的运行速度,提升输电线路缺陷检测的整体效率,为电网公司在输电线路无人机巡检缺陷精准识别领域提供应用示范。

面向智慧安防、智慧城市、智慧电力、工业视觉、机器人+、智能制造等不同行业与领域场景,联汇科技通过OmModel建设OmVision开放平台产品、智能硬件以及定制化实施方案,为不同行业提供智能的算法模型生成与应用能力,降低AI技术使用门槛。

未来AI走向与趋势

预训练大模型无疑是人工智能进化中的一个重要里程碑,它极大地降低了人工智能技术应用的成本和门槛。ChatGPT、OmVision类的应用产品以极高的示范效应丰富了人工智能应用市场的生态版图。不论是同赛道的差异化内卷,还是引入更多技术加速探索新产品,人工智能最大价值与意义始终是为人所用,让人从底层的、基础性的、简单重复性的劳动中解放出来,聚焦于真正的创新、创造。

联汇科技首席科学家赵天成表示:

新一代 AI 大模型不会仅停留在语言模型,更可能的形态是处理语言、视觉、声音等多任务的多模态 AI 模型,这是通往强人工智能更可能的通道,出现知识提炼能力和复杂推理能力更强的工具都将是时间问题。

正如之前多次的科技革命,人工智能正处于从“可以用”走向“更好用”的爆发阶段,人们将在越来越多的行业与领域中感受到它的存在与价值。不论是“谷歌”,还是普通人,科技的进步,必然会淘汰一部分基础性工作,而在汽车出现后的最好办法只有一个,那就是学会开车。

未来将有更多领域出现智能化加速。或许是更多游戏里的虚拟数字人,或许是每个家庭都能拥有的智能管家机器人,或许是新闻里的数字主播,又或是无所不有的数字孪生……随着多模态预训练大模型的持续迭代,联汇科技也将于今年发布性能更强的OmModel V3版本,科技进步与创新让这些看起来科幻的场景一步步实现,未来不是未来,未来是当下。

版权所有,未经授权不得以任何形式转载及使用,违者必究。