中国队刷新知识图谱“世界杯”,但点开冠军团队一看,我愣住了
360两新人带一实习生斩获冠军
博雯 发自 凹非寺
量子位 | 公众号 QbitAI
知识图谱领域的“世界杯”OGB(Open Graph Benchmark)wikikg2榜单,又被刷新了!
上榜的这支团队首次参加即夺冠,还在前五中占据两席。这两年,中国科技公司在人工智能领域高歌猛进,夺冠似在情理之中。
但意料之外的是,这支团队却出自一家“非典型科技公司”——
在大众认知里顶着“数字安全”标签的360。
且参与比赛的三人,乍眼一看也并非一个星光熠熠,大神云集的顶配组合:一位2019年刚刚毕业的硕士,一位去年才加入公司的“新人”,还有一位实习生。
但这样一支团队,这一次击败了AI三巨头LeCun、Yoshua Bengio分别坐镇的Meta FAIR实验室和MILA实验室,在脸书、阿里巴巴、第四范式等国内外耳熟能详的顶尖AI科研团队中脱颖而出。
甚至以几乎最小参数量的模型实现了最好的效果:
那么问题来了,360的提交和公开的参赛模型为何能打败一众竞争者登顶?获胜者又为何是360?
先从团队登上榜首所采用的TripleRE + NodePiece方法说起。
模型登顶后还持续“就业”
所谓的TripleRE + NodePiece,就是团队基于自己开发的原创模型TripleRE,再结合已有的NodePiece算法的一种创新方法。
其中,TripleRE模型正是他们这次获胜的关键。
TripleRE,全名Knowledge Graph Embeddings Via Triple Relation Vectors,直译过来就是通过三份关系向量进行知识图谱嵌入。
先解释一下知识图谱嵌入。
众所周知,知识图谱是一个将不同种类的信息连接得到的关系网络,是一种抽象描述现实世界及其关系的方法。
节点(Point)和边(Edge)是其组成的基本元素,一个头实体,一个关系,一个尾实体就能组成一个三元组,用以表示“知识”或“事实”。
三元组虽然能有效表示结构化数据,但其底层符号的特性会使知识图谱很难操作,也常常致使知识图谱不完整。
这就需要一种补全的方法:知识图谱嵌入。
这种方法又叫知识表示学习(KRL),具体来说,是将知识图谱的实体和关系嵌入连续向量或矩阵空间中,可以在保留实体和关系语义的同时,学习知识图谱的低维表示。
而开头提到的通过三份关系向量 则是一种具体实现知识图谱嵌入的方法。
以往的知识图谱嵌入方法, 比如2020年提出的PairRE模型,主要通过两个用于关系表示的向量将头尾实体分别投影到欧式空间,再最小化投影向量的距离:
而TripleRE模型则把向量切分成三份,两份和PairRE一样学习投影特征,一份学习平移特征,这就是“三份向量的嵌入”,正与模型名称相吻合。
通过引入三段的关系表示,TripleRE模型变因此能提取更多关系上的特征。
在此基础上,360的参赛团队还引入了去年6月份刚刚提出的一种知识模型领域的新方法,NodePiece,核心就是用较小的子实体大规模实体嵌入。
最终,该方案达到了榜单上亮眼的“小参数模型登顶”的结果。
值得注意的是,这个模型不是单纯“炫技“或“刷榜”产物,参加完比赛的TripleRE可没“失业“。
由于这一模型能够更好地获取实体表征,因此对知识图谱领域内亟待解决的一些问题,比如难以在抽取数据后实体文本进行融合对齐,也提供新的思路和方法——
目前在360的不少应用场景里都能看到它的身影。比如,360搜索就已经应用了该模型,提高了信息搜索的准确度。
“白帽子军团”的Geek基因
这一模型背后有一个十人左右的算法团队,而此次的参赛阵容则主要是三人。
除去一位实习生,开头提到的那位2019级刚刚毕业的硕士生叫做俞龙,主要负责打比赛。他硕士毕业于武汉大学,同年校招加入360,负责右侧实体推荐,知识抽取,垂直领域知识图谱构建等工作。
另一位“刚刚加入的新人”叫做刘焕勇,在比赛中则担任技术评估和讨论。他在2017年硕士毕业于北京语言大学,曾任职于中国科学院软件研究所,去年8月刚刚加入360,是算法专家和知识图谱算法组负责人。
在谈及TripleRE模型及其未来的计划时,刘焕勇表现地非常谦虚,他认为TripleRE模型当前还是阶段性成果,还有许多值得优化的地方。
具体的,他们会继续围绕360内部很多大规模知识图谱构建和应用的场景做迭代开发,进一步推广到企业图谱、安全等其他业务里去。
不过,在被问到获奖感受时,他一改画风,露出了些许年轻人的本性,连连笑称“激动人心”。
在360内部看来,这是个振奋人心的成果,而外界除了围观点赞之外,也多少对360这个网安赛场上的“常胜将军”拿下AI比赛的冠军感到有些意外。
可在360 人工智能研究院(以下简称“360AI研究院”)院长邓亚峰看来,“这本就是团队内部长期的研发方向之一。”
为何?这就要说到360的三层沉淀。
第一,互联网、IoT、安全等多项业务并行的360,有着超大规模的应用场景和数据量。
比如,在互联网领域,囊括360安全卫士,浏览器,导航搜索等多个方面,涉及到的数据也是包含了图文、视频的复杂信息流,不间断地实时更新。
在数字安全领域,360积累了2EB海量安全大数据,其中包括总量180+亿恶意网址、5万亿+存活网址、样本文件300亿+等。而随着2019年在政企安全领域的深耕,安全数据在更加复杂的场景得到了不断的验证、训练和补充。
如此广阔的业务覆盖领域,也难怪刘焕勇在被问到初入公司最深刻的印象时,脱口而出的便是:
数据量特别大,尤其是安全的数据,对我冲击力很强。
业务范围广,加上多年运营,提供以大量宝贵的数据积累,涉及了计算机视觉、语音语义对话、自然语言理解、机器人运动、智能安全等主流的人工智能研究方向。
在数据即资源的AI时代,这些业务场景数据无疑是AI研发的绝佳的“练兵场”。
还是以「搜索」为例。
近些年,360一方面利用知识图谱技术,自动化抽取搜索查询词以及网页内容里面的实体、属性以及关系,并构建实体之间的关联,通过知识图谱向量化技术帮助提升搜索和推荐效果;
另一方面,用自然语言预训练模型提升语义理解的能力,并应用在搜索引擎的各个环节,整体取得的提升近20%;此外,还通过图文跨模态技术将图像搜索的错误率降低到了原来的1/4。
这种跨模态技术也被应用在了化学领域,360的化合物识别新方法CReSS,就是将核磁碳谱和分子结构式分别基于深度学习做了表示,然后将两个表示映射到一个空间中,再计算相似度:
此外,运动引擎相关的AI技术,比如定位、建图、路径规划等也为扫地机器人等智能设备提供了技术支持。
而支撑如此大量且丰富的应用落地的,除了本身的技术实力之外,也和360整体的极客精神有关。
这也是360的第二层沉淀。
拿「360 AI 研究院」来说,作为公司科研机构,衡量他们一年工作的KPI并非在部门盈利上有具体的金额要求,而是价值。
价值如何体现?
就是更看重研究能否对公司业务、产品特性有所推动,甚至能否用到公司业务以外的地方,比如和医疗、化学等传统行业结合,在工业和民生上发挥实用价值。
对于定下这一价值指标的大老板周鸿祎,院长邓亚峰这样调侃:
老周是一个很有意思的人,你跟他直接谈钱他会生气的。
这样一种务实的调调,也就直接反应在了360对人才的“偏好”上。
比如在360 AI 研究院中,像夺冠工程师俞龙这样校招“养成系工程师”以及本土工程师的占比很高。在今天这个学历门槛愈来愈高的AI行业中,360依然认为“英雄不问出处”,更偏爱能在特定场景创造性地解决问题的人才。
在谈及TripleRE模型团队未来的优化目标和长期计划时,两位一线技术人员就一致表示:肯定会围绕知识图谱的具体应用场景去做前沿探索。
团队有意招揽务实、具备内驱特质的成员。进入团队后,再不断“投喂“业务场景,与技术相结合,创造新的价值。而其落地的应用创新,又将源源不断地吸引新的人才。
这就形成了一个正循环,技术和应用双创新的温床。
360 AI 研究院的院长邓亚峰就是一位去年加盟的“新人”。
他此前曾担任百度深度学习研究院科学家,在人工智能、计算机视觉领域有着近20年的经验。
作为一位人工智能领域的专家,在加盟之前,他就听闻过不少关于360的成就,360的ai团队论文和落地成果不断,在行业内部也是影响力颇深。
技术积累,便是360的第三层沉淀。
除了人工智能领域的成绩之外,360更为外界所熟知的是“安全能力”在微软、谷歌、苹果、特斯拉等国际知名公司的白帽子致谢名单中,360安全团队因发现一系列关键漏洞,常年位列前排。
而在全球顶级的安全会议和比赛中,360也是屡屡获奖。
2019年,号称“全球白帽黑客奥斯卡”的The Pwnie Awards中,360成为了中国首个获得最佳提权漏洞奖的企业。
而在2021年的The Pwnie Awards,360再次获得两项“最佳提权漏洞”提名,和一项“史诗级成就”提名。至此,“东半球最强白帽子军团”便成为360的代名词。
2020年,360更是发现了某大国情报机构为背景的APT攻击组织对我国关键领域长达11年的潜伏。
至今为止,360一共捕获了境外46个国家级黑客,监测到3600多次攻击,涉及2万余个攻击目标。在网络攻击愈演愈烈的今天,360将这份安全能力投入到保护政企用户中。
而在人工智能逐渐兴起之时,360也早早进行了探索。
早在2010年,360就基于人工智能算法,推出了自主研发的第三代杀毒引擎——QVM人工智能引擎,让杀毒引擎具备“自学习、自进化”能力,从根本上攻克了“不升级病毒库就杀不了新病毒”的技术难题,在全球范围内属于首创。
再回过头来看360这次在知识图谱领域的获奖,其实就能发现,这是技术传承和积累之后,终于厚积薄发的一种必然。
周鸿祎带队,技术团队「上山下海」
近几年,人工智能、数字安全领域兴起,人工智能与安全开启互相赋能。
不管是让AI变得更加安全,还是用AI把安全做得更好,这两者的结合才刚刚开始。
能看出,360带着老手优势进入行业,近期已经开始有所成,从AI走入千行百业的行业维度看,360确实用种种动作证明自己继承互联网时代安全员角色,提供一份护航。
周鸿祎曾在2021年的世界互联网大会上说:
科技企业只有承担“上山下海”的新使命担当,突破技术障碍,赋能传统企业,担当国家战略科技力量,才能获得更大的发展空间,创造更大的价值。
所谓上山,即追求先进的技术,通过自主研发原创性的,创新性的新技术,新模型,解决业内普遍存在的难题。
所谓下海,是指“数字化蓝海”,在取得了技术成就之后,一定要让其产生实打实的落地价值,让最前沿的技术能普惠到传统企业的数字化转型,乃至普通群众的身上。
结合AI行业发展势头看,老周这番豪言确不是一声空响。
而在360内部,这也并非只是一句口号。
公司内部具体的“三年规划”,或更加长期的使命愿景已经开始落到实处。
比如说,为了推动人工智能大规模落地,360正在开展有关自动化机器人的多项研究,亲看中不仅有扫地机器人这种实体的,也有语音语义对话的虚拟机器人。
比如说,在院长邓亚峰所预测的“基于自监督预训练的跨模态统一框架”的技术趋势下,他们在视觉理解、自然语言处理、知识图谱、语音语义对话、机器人运动领域等涵盖了人工智能主流应用和深度学习核心技术领域不断进行新的探索,持续拓宽跨模态表示、自监督预训练等研究的技术边界,并落地在互联网信息分发、智慧生活以及数字安全等业务上。
对于360的技术人员来说,他们对“上山下海”的理解非常简单:就是不仅要研发业界一流的技术,还要落地产业价值。
跳出公司本身,从更宏观视角来看数字安全领域头部大厂“上山下海”,这并不止为AI赋能百业,尤其给关键国民领域数字化保驾护航,其独立自主的开发流程和创新的勇气,也为AI产业提供了更多技术延伸和发展范式。
360,已经在通往未来的路上了。
- 有道智能学习灯发布,通过“桌面学习分析引擎”实现全球最快指尖查词2022-04-08
- 科学证明:狗勾真的懂你有多累,听到声音0.25秒后就知道你是谁,对人比对狗更亲近2022-04-14
- 在M1芯片上跑原生Linux:编译速度比macOS还快40%2022-04-05
- 小学生们在B站讲算法,网友:我只会阿巴阿巴2022-03-28