前沿科技探索家 · 2020年12月18日

ERNIE加持,飞桨图神经网络PGL全新升级

在2019年深度学习开发者秋季峰会上,百度对外发布飞桨图学习框架 PGL v1.0正式版,历经5个月的版本迭代,PGL 再度升级,发布v1.1版本,带来了最新的算法突破、全面的工业级图学习框架能力以及工业级的实践案例。下面我们逐一揭秘升级点。

最新算法突破:结合语义与结构信息的图神经网络模型 ERNIESage

在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。
v2-4dac0dde3259295abeb8ca6ea49d4948_1440w.jpg

PGL 团队提出 ERNIESage 模型同时建模文本语义与图结构信息,有效提升 Text Graph 的应用效果。其中ERNIE 是百度推出的基于知识增强的持续学习语义理解框架,在中英文16个任务上超越业内同类最优模型,以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的GLUE 评测榜单,并在最近 SemEval 2020上斩获5项世界冠军。

ERNIESage 是 ERNIE 与 GraphSAGE 碰撞的结果,是 ERNIE SAmple aggreGatE 的简称,它的结构如下图所示,主要思想是通过 ERNIE 作为聚合函数(Aggregators),建模自身节点和邻居节点的语义与结构关系。
v2-f17ebea9b1ecc233580ef09094dadd67_1440w.jpg

ERNIESage 对于文本的建模是构建在邻居聚合的阶段,中心节点文本会与所有邻居节点文本进行拼接;然后通过预训练的 ERNIE 模型进行消息汇聚,捕捉中心节点以及邻居节点之间的相互关系;最后使用 ERNIESage 搭配独特的邻居互相看不见的 Attention Mask 和独立的 Position Embedding 体系,就可以轻松构建 TextGraph 中句子之间以及词之间的关系。

单纯的 ID 特征的 GraphSAGE 只能建模结构信息,单独的 ERNIE 语义模型只能建模语义信息。在 PGL 的框架驱动下,我们可以轻松结合二者,通过 ERNIE 捕捉语义信息,并且利用 GraphSAGE 补充结构特征,通过节点的邻居补充更有用的信息。

下图为百度内部某个推荐系统的 Text Graph 实际场景,ERNIESage 通过结合文本与图结构信息,可以取得比独立应用 ERNIE 和 GraphSAGE 更好的效果。
v2-2acd586be4e8a03984b248d3ac092e56_1440w-2.jpg

百度内部某个推荐系统的 Text Graph 实际场景
得益于 PGL 的灵活易用特性,ERNIESage 能在 PGL 的 MessagePassing 范式下快速实现,下面介绍 PGL v1.1版本的其他亮点特性。

全面的工业级图学习框架能力:引入多领域模型、领衔工业应用、赋能科研创新

下图是 PGL v1.1的框架图,黄色与橙色部分为v1.1版本更新内容,其中橙色为自研的模型算法。
v2-e2a92bcc83562f571a326e0e533bc7fa_1440w-2.jpg

自研创新模型,包括结合语义与结构信息的图神经网络模型 ERNIESage、多元路径游走算法 Multi-Metapath2vec++,以及基于语义索引技术的 GNN-Index,这些创新算法极大地提升了百度内外多个工业级应用效果;
完备框架算法库,总模型数扩充至23个。其中新增知识图谱算法库 PGL-KE,提供业界领先的知识图谱算法,如 TransE、TransR、RotatE 等,全面支持知识图谱类算法调研;
赋能科研创新,适配图学习通用性能评价基准数据集 OGB(Open Graph Benchmark)。提供统一数据与模型接口,开发者可以使用快速接入 OGB,复现 SOTA 效果;
丰富框架计算能力,新增基于 Lod Tensor 的 Graph 快速算子,如 Graph Batch、Graph Pool 以及 Graph Norm,多图联合训练更加方便灵活。
工业级实践案例揭秘:PGL 如何掀起图算法热潮

得益于 PGL 创新性自研算法加持,以及框架的全新升级,PGL 支持的百度内外部业务也是遍地开花,全面覆盖搜索、商业广告、信息流、金融风控、贴吧、用户画像、智能地图等相关业务,可支持百亿巨图场景。下面是一些经典工业级案例介绍。

在信息流兴趣搜索推荐场景下,构建信息流文章与搜索词之间的复杂异构图关系网络,利用 PGL 异构图神经网络算法挖掘用户潜在兴趣点。在用户阅读文章后,提供更多用户感兴趣的搜索词,推荐搜索词点展比大幅提升近90%,大大地提升了信息流产品的用户体验;
在贴吧推荐场景下,通过多元路径(Multi MetaPath)来表征用户、贴吧和帖子的异构图关系,通过优化元路径范式,自动匹配同源负样本,克服单条 MetaPath 信息表征不全面的问题,总点击提升1.89%,点展比提升0.93%,缩短了用户与感兴趣贴吧的路径;
在商业广告场景下,构建用户搜索词与广告的图网络。结合 PGL 自研模型 ERNIESage,聚合语义以及结构信息,提升了触发模型的泛化能力,取得较大的经济效益;
在度小满金融风控场景下,通过构建用户图网络,结合 PGL 灵活定制风控图神经网络,快速挖掘具有逾期风险的用户。基于 GNN 的金融风控模型,KS 指标绝对提升1.6,AUC 指标绝对提升2%,有效地提升了优质客群人数,降低了贷款风险并且大幅度减少审核人力。
综合来看,图学习框架 PGL 依托于飞桨再度升级,带来更多的自研算法、更加全面的框架能力。图学习作为通用人工智能算法之一,势必成为这个时代新的基础设施,赋能各行各业,助燃智能经济腾飞。这仅是图学习热潮的开始,希望有志之士加入 PGL,一起共建未来。

PGL 代码完全开源,欢迎小伙伴们使用。如果您在使用过程中有任何疑惑或创新尝试,欢迎联系我们,反馈您的意见或与其他小伙伴分享您的成果。

如在使用过程中有技术问题,欢迎加入飞桨官方 QQ 群进行提问:703252161。

如果您想详细了解更多飞桨 PGL 的相关内容,请参阅以下文档:

飞桨 PGL 入门教程:

https://aistudio.baidu.com/ai...

飞桨 PGL 项目地址:

GitHub:

https://github.com/PaddlePadd...

飞桨开源框架项目地址:

GitHub:

https://github.com/PaddlePadd...

Gitee:

https://gitee.com/paddlepaddl...

推荐阅读
关注数
12971
内容数
325
带你捕获最前沿的科技信息,了解最新鲜的科技资讯
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息