屠榜大杀器UniMP!百度登顶图神经网络权威榜单三项榜首
百度提出融合标签传递和图神经网络的统一模型UniMP(Unified Message Passing),在图神经网络权威榜单OGB(Open Graph Benchmark)取得多项榜首。
允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI
近日,百度在图神经网络领域取得新突破,提出融合标签传递和图神经网络的统一模型UniMP(Unified Message Passing),在图神经网络权威榜单OGB(Open Graph Benchmark)取得多项榜首。
Leaderboard for ogbn-products
Leaderboard for ogbn-proteins
Leaderboard for ogbn-arxiv
图神经网络最权威榜单OGB
图神经网络是用于图结构数据的深度学习架构,将端到端学习与归纳推理相结合,有望解决传统深度学习无法处理的因果推理、可解释性等问题,是非常有潜力的人工智能研究方向。但是,这个领域一直缺乏规模比较大且认可度较高的数据集。目前大量的论文仍然在Cora、PubMed、Citeseer等小数据集上进行实验,实验的效果也没有普适性。在此情况下,OGB(Open Graph Benchmark)应运而生:
- 权威性高:OGB是由斯坦福大学图神经网络权威Jure Leskovec教授团队建立的大规模图学习任务的评测基准数据集,指导委员会包含Yoshua Bengio、Will Hamilton、Max Welling等业界大牛。Jure Leskovec教授在NeurlPS 2019大会的演讲中正式对外发布OGB并开源,是目前公认最权威的图学习相关基准测试数据集。
- 数据丰富:OGB面向不同的图学习任务(包括节点分类,边预测,图分类)分别提供了多个数据集,如学术引用网络、知识图谱、分子图、生物网络等。其中最热门的三个半监督节点分类数据集:商品推荐ogbn-products、论文引用ogbn-arxiv和化学分子ogbn-proteins,对图神经网络研究者有极强的吸引力。
- 夺榜激烈:OGB吸引了包括斯坦福、纽约大学、加州大学洛杉矶分校、康奈尔大学、亚马逊等多个机构参与打榜;榜单上也诞生了层出不穷的新颖图神经网络结构,如堆积112层的深度图卷积网络DeeperGCN,发表在ICML 2020的多层图网络GCNII,还有多种形式不同的图采样算法。
近日,百度PGL团队创新提出统一消息传递图神经网络模型UniMP,在三大半监督节点分类数据集均荣登榜首。榜单上放出的开源代码与论文地址如下:
UniMP开源代码地址:https://github.com/PaddlePaddle/PGL/tree/main/ogb_examples/nodeproppred/unimp
UniMP论文地址:https://arxiv.org/pdf/2009.03509.pdf
UniMP:统一消息传递模型
在半监督图节点分类场景下,节点之间通过边相连接,部分节点被打上标签。任务要求模型通过监督学习的方式,拟合被标注节点数据,并对未标注的节点进行预测。如下图所示,在一般机器学习的问题上,已标注的训练数据在新数据的推断上,并不能发挥直接的作用,因为数据的输入是独立的。然而在图神经网络的场景下,已有的标注数据可以从节点与节点的连接中,根据图结构关系推广到新的未标注数据中。
一般应用于半监督节点分类的算法分为图神经网络和标签传递算法两类,它们都是通过消息传递的方式(前者传递特征、后者传递标签)进行节点标签的学习和预测。其中经典标签传递算法如LPA,只考虑了将标签在图上进行传递,而图神经网络算法大多也只是使用了节点特征以及图的链接信息进行分类。但是单纯考虑标签传递或者节点特征都是不足够的。
百度PGL团队提出的统一消息传递模型 UniMP,将上述两种消息统一到框架中,同时实现了节点的特征与标签传递,显著提升了模型的泛化效果。UniMP以Graph Transformer模型作为基础骨架,联合使用标签嵌入方法,将节点特征和部分节点标签同时输入至模型中,从而实现了节点特征和标签的同时传递。
简单的加入标签信息会带来标签泄漏的问题,即标签信息即是特征又是训练目标。实际上,标签大部分是有顺序的,例如在引用网络中,论文是按照时间先后顺序出现的,其标签也应该有一定的先后顺序。在无法得知训练集标签顺序的情况下,UniMP提出了标签掩码学习方法。UniMP每一次随机将一定量的节点标签掩码为未知,用部分已有的标注信息、图结构信息以及节点特征来还原训练数据的标签。最终,UniMP在OGB上取得SOTA效果,并在论文的消融实验上,验证了方法的有效性。
屠榜背后:飞桨图学习框架PGL加持
UniMP基于飞桨图学习框架PGL(Paddle Graph Learning)实现,依托飞桨核心框架以及自研的图引擎。PGL支持十亿节点百亿边的超巨图训练,原生支持异构图Metapath采样以及Message Passing双模式,预置多种业界主流图学习算法以及自研模型如ERNIESage、UniMP等,方便开发者熟悉和使用图神经网络领域模型。
飞桨PGL已经在搜索、广告、信息流、金融风控、贴吧、用户画像、智能地图等场景全面落地,可支持百亿巨图场景。图学习作为通用人工智能算法之一,势必成为这个时代新的基础设施,赋能各行各业,助燃智能经济腾飞。希望有志之士加入PGL,一起共建未来。
PGL代码完全开源开放,欢迎开发者们使用并贡献您的奇思妙想。如果您觉得还不错,欢迎“Star”;如果您有意见需要交流,欢迎“Issue”,PGL开源代码和入门教程链接:
PGL开源代码:https://github.com/PaddlePaddle/PGL
PGL图学习入门教程:https://aistudio.baidu.com/aistudio/projectdetail/413386
如果您想详细了解更多飞桨的相关内容,请参阅以下文档。
官网地址:https://www.paddlepaddle.org.cn
飞桨开源框架项目地址:
GitHub: https://github.com/PaddlePaddle
Gitee: https://gitee.com/paddlepaddle/Paddle
— 完 —
- 声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 20252024-12-26
- 百度晒出2024年AI成绩单,将于明年初发新版文心大模型2024-12-26
- 一场面向算力产业的超大规模会议|第十九届中国IDC产业年度大典圆满闭幕!2024-12-25
- 全系列模型开源,腾讯混元大模型公布最新开源成绩2024-12-24