百度又有“大动作”?9月18日,百度正式公布在图神经网络领域取得新突破,提出融合标签传递和图神经网络的统一模型 UniMP(Unified Message Passing),在图神经网络权威榜单 OGB(Open Graph Benchmark)取得多项榜首,引发业界关注。
Leaderboard for ogbn-products
Leaderboard for ogbn-proteins
Leaderboard for ogbn-arxiv
图神经网络最权威榜单 OGB
图神经网络是用于图结构数据的深度学习架构,将端到端学习与归纳推理相结合,有望解决传统深度学习无法处理的因果推理、可解释性等问题,是非常有潜力的人工智能研究方向。但是,这个领域一直缺乏规模比较大且认可度较高的数据集。目前大量的论文仍然在 Cora、PubMed、Citeseer 等小数据集上进行实验,实验的效果也没有普适性。在此情况下,OGB(Open Graph Benchmark)应运而生:
权威性高:OGB 是由斯坦福大学图神经网络权威 Jure Leskovec 教授团队建立的大规模图学习任务的评测基准数据集,指导委员会包含 Yoshua Bengio、Will Hamilton、Max Welling 等业界大牛。Jure Leskovec 教授在 NeurlPS 2019大会的演讲中正式对外发布 OGB 并开源,是目前公认最权威的图学习相关基准测试数据集。
数据丰富:OGB 面向不同的图学习任务(包括节点分类,边预测,图分类)分别提供了多个数据集,如学术引用网络、知识图谱、分子图、生物网络等。其中最热门的三个半监督节点分类数据集:商品推荐 ogbn-products、论文引用 ogbn-arxiv 和化学分子 ogbn-proteins,对图神经网络研究者有极强的吸引力。
夺榜激烈:OGB 吸引了包括斯坦福、纽约大学、加州大学洛杉矶分校、康奈尔大学、亚马逊等多个机构参与打榜;榜单上也诞生了层出不穷的新颖图神经网络结构,如堆积112层的深度图卷积网络 DeeperGCN,发表在 ICML 2020的多层图网络 GCNII,还有多种形式不同的图采样算法。
近日,百度 PGL 团队创新提出统一消息传递图神经网络模型 UniMP,在三大半监督节点分类数据集均荣登榜首。榜单上放出的开源代码与论文地址如下:
UniMP开源代码地址
https://github.com/PaddlePadd...
UniMP论文地址
https://arxiv.org/pdf/2009.03...
UniMP:统一消息传递模型
在半监督图节点分类场景下,节点之间通过边相连接,部分节点被打上标签。任务要求模型通过监督学习的方式,拟合被标注节点数据,并对未标注的节点进行预测。如下图所示,在一般机器学习的问题上,已标注的训练数据在新数据的推断上,并不能发挥直接的作用,因为数据的输入是独立的。然而在图神经网络的场景下,已有的标注数据可以从节点与节点的连接中,根据图结构关系推广到新的未标注数据中。
一般应用于半监督节点分类的算法分为图神经网络和标签传递算法两类,它们都是通过消息传递的方式(前者传递特征、后者传递标签)进行节点标签的学习和预测。其中经典标签传递算法如 LPA,只考虑了将标签在图上进行传递,而图神经网络算法大多也只是使用了节点特征以及图的链接信息进行分类。但是单纯考虑标签传递或者节点特征都是不足够的。
百度 PGL 团队提出的统一消息传递模型 UniMP,将上述两种消息统一到框架中,同时实现了节点的特征与标签传递,显著提升了模型的泛化效果。UniMP 以 Graph Transformer 模型作为基础骨架,联合使用标签嵌入方法,将节点特征和部分节点标签同时输入至模型中,从而实现了节点特征和标签的同时传递。
简单的加入标签信息会带来标签泄漏的问题,即标签信息即是特征又是训练目标。实际上,标签大部分是有顺序的,例如在引用网络中,论文是按照时间先后顺序出现的,其标签也应该有一定的先后顺序。在无法得知训练集标签顺序的情况下,UniMP 提出了标签掩码学习方法。UniMP 每一次随机将一定量的节点标签掩码为未知,用部分已有的标注信息、图结构信息以及节点特征来还原训练数据的标签。最终,UniMP 在 OGB 上取得 SOTA 效果,并在论文的消融实验上,验证了方法的有效性。
屠榜背后:飞桨图学习框架 PGL 加持
UniMP 基于飞桨图学习框架 PGL(Paddle Graph Learning)实现,依托飞桨核心框架以及自研的图引擎。PGL 支持十亿节点百亿边的超巨图训练,原生支持异构图 Metapath 采样以及 Message Passing 双模式,预置多种业界主流图学习算法以及自研模型如 ERNIESage、UniMP 等,方便开发者熟悉和使用图神经网络领域模型。
飞桨 PGL 已经在搜索、广告、信息流、金融风控、贴吧、用户画像、智能地图等场景全面落地,可支持百亿巨图场景。图学习作为通用人工智能算法之一,势必成为这个时代新的基础设施,赋能各行各业,助燃智能经济腾飞。
PGL 获得喜人成绩,背后离不开强有力的后盾——飞桨。飞桨是我国首个开源开放、功能完备的产业级深度学习平台,向下对接芯片,能够和芯片进行软硬一体的优化,向上支撑各种应用,助力技术创新和业务发展,可以说是“智能时代的操作系统”。近期,飞桨动态图和 API 体系全面升级,让开发者可以更便捷地开发、更高效地部署模型。
百度希望有志之士加入 PGL,一起共建未来。PGL 代码完全开源开放,欢迎欢迎开发者们使用并贡献您的奇思妙想。如果您觉得还不错,欢迎“Star”;如果您有意见需要交流,欢迎“Issue”,PGL 开源代码和入门教程链接:
PGL 开源代码
https://github.com/PaddlePadd...
图学习入门教程
https://aistudio.baidu.com/ai...