太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

AI还是得AI来治

白小交 发自 凹非寺

量子位 | 公众号 QbitAI

我在外滩大会上生成Deepfake,结果没骗过机器人……

反倒啪的一下,秒秒钟就被找出?!

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

而机器人手中的神兵利器,仅仅只是我们日常都在使用的手机摄像头。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

实在是太火了!

Deepfake攻防,成为整个外滩大会现场最受关注的展区之一;相关讨论也成为整个外滩大会最火热的论坛,现场可以说是人山人海人挤人。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……
太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

之所以如此受关注,也有大众已知的原因。

这不最近DeepFake可以说是来势汹汹,用这项AI技术犯罪的严重程度被网友直呼是「韩国N号房再现」

刚提到的这场“全球Deepfake攻防挑战赛”,吸引了全球26个国家和地区,2200+技术研究者对抗Deepfake威胁。在这期间,大赛队伍中科院自动化所表示,将开源AI模型供大家免费使用,一时间引发全网朋友共鸣。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

如今在外滩大会,终于有机会亲自体验这个Deepfake从生成到对抗的流程是什么样,看AI如何帮助普通人识别伪造风险。

这背后究竟还有哪些细节?除此之外还有哪些亮点,我们一起来看看。

探展蚂蚁数科

那么首先就来看蚂蚁数科里这个超火的展区:Deepfake攻防。

整个过程你唯一需要做的,就是站在一个定点,由iPad拍摄人脸。

然后,就由现有AI模型来生成的换脸图or视频。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

Deepfake就由机械臂来从三组图+一个视频中找出真照片。可以看到视频还是很逼真的,这下谁能证明“我不是我”。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

由于是现场实时物理采集,机械臂手持智能手机打开相机拍照来收集数据,然后再进行一个识别的操作。

短短几秒钟的时间,bingo~机器人就识别出来了正确答案。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

据现场工作人员介绍,在他们日常工作中,往往最快三秒就可以识别出来。

这背后是由天玑实验室以及安全品牌ZOLOZ提供技术支持。

前者主要专注在可信数字身份这块,自研了一套自动化生物识别测评体系。当前市面上70%的安卓手机,都要来到天玑实验室经历一番“毒打”。它也是谷歌全球唯一官方合作”安卓生物识别安全”检测实验室。

而后者,则是蚂蚁数科旗下安全科技品牌ZOLOZ,现在在为中国、印尼、马来西亚、菲律宾等14个国家和地区的70余家合作伙伴提供技术服务,包括像端到端身份验证、在线欺诈检测以及持续风险监控服务等。

今年4月,他们推出了反Deepfake产品ZOLOZ Deeper。外滩大会展示的,正好是他们日常的真实业务场景——

几十万测试样本,每月超20000次的攻防测评,模拟上百种伪造攻击情况·····

同样以直观可感的方式展示出来的,还有他们的AI标注场景。

AI大模型生产流程通常包括三个步骤:采集-标注-合成。

首先是采集过程。

现场准备了一个模拟真实环境的沙盘,我们通过控制机械臂来对沙盘中任意位置or场景,进行实时拍照。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

这时候图像数据也就被传输到系统当中去,这也就完成了数据生产的起点。

随后就是标注这一步骤,不再是传统依靠纯人工的方式,而是依靠自研的多模态大模型来AIGD(AI生成数据)。

模型会自动完成目标检测并标注、语义分割、文本描述、深度检测、3D建模等任务。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

人类主打一个协助审核的作用,比如在文本描述阶段,需要靠人工来审核识别目标的细节,比如物体的颜色、形状等等。

最后就来到数据合成。核心特点就是可控。既可以对单个物体编辑,也可以对整体场景把关。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

这样一来无需采集,打破原有真实条件限制,可持续地生产全新的数据。

而除了实景标注,旁边还有个视频标注的模块,只需对任意视频中的任意一帧进行采集,同样也可以完成接下来的标注和合成操作。

这样一套全链路生产体系,实测显示,在同类结构和同类规模数据量的情况下,会让标注效率提升40%以上。

除了智能化标注产品,蚂蚁数科还配备了万人的人工标注团队,垂直专业领域同高阶标注人才超过90%。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

提到数据标注,当前市面上最具代表的莫过于Scale AI,科技圈当红独角兽,他最新完成近 10 亿美元融资,估值升至 138 亿美元。

不过同Scale AI不同的是,此次可以看到蚂蚁数科还提供数据加工、合成服务。

比如在一些企业私域或者垂直领域,大量数据尚未公开没有被充分挖掘。

结合蚂蚁数科多年来场景和技术优势,这时候除了帮助企业实现数据服务的“就地取材”,还可以针对性地数据泛化,比如像交通、政务、金融等垂直场景,合成更多高质量数据。

好了,以上Deepfake攻防与智能标注是此次蚂蚁数科最具代表性的展区内容。

值得注意的是,这正好是当前业界正在热议也是最受关注的两个问题:

当AI应用泛滥,如何应对造假问题;大模型加速落地,高质量数据缺失又应该如何解决?

如今大模型时代来到应用时期,更多风险和问题由此暴露出来,给企业带来了不少挑战。

对于本身在产业深耕多年的蚂蚁数科,其实这次也带来了他们的解决方案。

这藏在外滩大会上,藏在这两个最受关注的产品之中。

他们整个业务布局,可以这样总结:从AI For Data到Data for AI。

从AI For Data到Data for AI

什么是从AI For Data到Data for AI?要回答这个问题,需要从整个产业现状开始看。

AI发展到现在,从模型驱动来到了数据驱动,而随着数字化转型的深入,企业生产经营实际上是数据的流通。技术与场景,AI与Data,从未像今天这样如此契合。业务场景需要AI来提效,而高质量数据需要充分利用为给AI。

一边是AI for data,利用AI来充分挖掘数据的价值,进行数据分析、判别等。

以风控场景为例,这是每个企业经营生产时都会面对的场景。

蚂蚁数科搭建了一套决策式AI驱动的风控算法模型。引入像工商司法数据、财报数据、产业链数据、发票税务数据、舆情数据等,来帮助企业做出高效准确的决策。

以往需要大量人力进行人肉风控,对于他们来说,理解管理诉求和快速决策布控非常具有挑战性。而现在只需要AI这个决策辅助在手,运营新手面对再复杂的场景也能hold住了。

比如蚂蚁数科与中铁建的合作中,他们共建了一套“产业数据+AI模型”的产业风控平台,让产业链的客商准入效率提升了至少50%。

一边data for AI,高质量数据是训练AI模型的基础。AI驱动的数据服务-数据加工-数据标注于一体的方案,加速企业大量原始非结构化数据朝着高质量结构化数据的转化。

除此之外,还有像蚁天鉴这样的大模型安全产品,来保障大模型在训练生产和使用过程中的安全可控可靠。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

我们注意到,蚂蚁数科已经形成ABC三大业务板块:

首先是云服务(Cloud+),帮助企业迈入数字化「上云」阶段,打造更强大的科技引擎;

第二块是AI服务(AI+),以AI技术重构升级风控、营销等场景效率,助力企业在大模型时代建立竞争优势。

第三块是区块链服务(Blockchain+),通过科技构建产业信任,提升数字化协作效率,加速数据资产流通。

对于蚂蚁数科来说,ABC中的“A”很重要,很明显的指向是,此次蚂蚁数科呈现出来的业务布局“从AI For Data到Data for AI”,有三个特点:

产业、产业还是产业。用AI真实创造产业价值,解决实际问题。这同样也是大模型应用最紧要的命题。

产业需要什么样的AI?

大模型发展到现在,人们对大模型的看法已经变了。

比如就从最近诸多行业问题与思考开始,图像视频生成模型频频开卷,人们的目光不再聚焦于效果多么惊艳,而是因为效果过于逼真,开始担心背后的潜在隐忧;被「缓解高质量数据荒」的数据合成,结果Nature封面一个:Garbage in Garbage out,数据合成越多会导致语言模型崩溃,给这个新兴行业趋势浇了冷水……

以及关于ScallingLaws的讨论,在行业应用的大模型,参数量到底在多少合适?真的是越来愈多,模型性能就会好吗?

种种问题,甚至还导向了另一种倾向:大模型,是不是真的存在泡沫?

之所以能引起这样的思考,其实也不难理解。

随着大模型技术的发展和应用的深入,一方面人们逐渐意识到了大模型能力的边界。模型的参数量不再作为模型能力的核心指标,高质量的数据流入才能保证模型高性能。

另一方面,大模型进入应用深水区。产业界对AI的需求,已经不仅仅是单纯的技术追求,解决实际问题才是衡量大模型的唯一标准。

太火了!我在外滩大会玩Deepfake,想骗过机器人结果……

随之而来的,就是场景中的诸多挑战。

以数据问题为例,当前市面上通用大模型都是基于互联网公开的数据集。他们虽然数量众多、类别广泛,但是无法保质保量,甚至大部分都是“脏”数据。

对于专业严肃的应用场景来说,一来更多高质量的行业数据是非公开的,又或者是企业内部自身的,这需要系统来统一调度和管理,还有一些非结构数据需要转化;二来,对于大量公开的数据需要工程级别的清洗、标注,才能达到能使用训练的水平。

因此看大模型落地千行百业,不能简单看大模型的性能展示,而是说怎么同产业的深度融合。

而本身就在产业有着长期投入的企业,他们有着天然的场景优势,也最有可能将AI能力和影响力才能渗透进行业之中。

蚂蚁数科,就是一个。

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。