近日,百度正式发布情感预训练模型 SKEP(Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis)。SKEP 利用情感知识增强预训练模型, 在14项中英情感分析典型任务上全面超越 SOTA,相关论文已经被 ACL 2020录用。本文将对 SKEP 的模型、实验效果、开源、商业应用分别进行介绍。
论文名称
SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis
论文地址
https://arxiv.org/abs/2005.05635
开源地址
https://github.com/baidu/Senta
SKEP ,基于情感知识增强的情感预训练
情感是人类认知的重要组成部分,让机器具备情感分析能力是实现机器认知智能的必要环节。具体来说,情感分析旨在自动识别和提取文本中的倾向、立场、评价、观点等主观信息。它包含各式各样的任务,比如情感倾向分类、实体级情感分类、观点抽取、情绪分析等,整体上这些任务均依赖于深入的情感语义理解。
近年来,基于预训练的语义理解获得了迅猛的发展,显著提升了各类自然语言处理任务的效果。相比于通用预训练中主要关注事实型文本(如新闻、百科等),情感分析更侧重于分析主观型文本中蕴涵的情感和观点,因此有必要专门面向情感分析研发情感预训练模型。
为此,百度研究团队提出了基于情感知识增强的情感预训练算法 SKEP。此算法采用了无监督方法自动挖掘情感知识,然后利用情感知识构建预训练目标,从而让机器学会理解情感语义。
情感预训练 SKEP 模型示意图
具体的说,SKEP 首先基于统计方法从大量无标记数据中自动挖掘情感知识,包括情感词(如图中情感词 fast、appreciated)、情感词极性(如图中 fast 对应的情感极性为积极)以及观点搭配(如图中 <product, fast> 构成的二元组)。
然后,基于自动挖掘的情感知识,SKEP 对原始输入句子中的部分词语进行屏蔽(Mask),即替换为特殊字符 [MASK]。除了像传统的预训练对单词或者连续片段进行屏蔽,SKEP 还会对观点搭配这种 skip-gram 进行屏蔽。
最后,SKEP 设计了三个情感优化目标,要求模型复原被屏蔽的情感信息,包括:基于多标签优化的观点搭配预测,如图 x1 位置预测 <product, fast> 情感搭配;情感词预测,如图 x6 位置预测 fast;情感极性分类,如图 x6、x9 预测该位置情感极性。
这样,通过面向情感的优化目标进行预训练,自动挖掘的情感知识就被有效地嵌入到模型的语义表示中,最终形成面向情感的语义表示。
实验 ,在14个中英情感数据全面超越 SOTA
百度研究团队在三个典型情感分析任务,共计14个中英文数据上验证了情感预训练模型 SKEP 的效果,包括句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)和观点抽取(Opinion Role Labeling)。
实验表明,以通用预训练模型 ERNIE(内部版本)作为初始化,SKEP 相比 ERNIE 平均提升约1.2%,并且较原 SOTA 平均提升约2%,具体效果如下表:
在被 ACL 2020录用的论文中,百度还对实验结果进行详细的分析对比。实验分析表明,各类情感知识对于情感预训练都是有帮助的,并且通过利用情感知识进行预训练,SKEP 能更好地捕捉文本中的情感信息。更多的细节可以通过该论文进行了解。(论文链接见文章开头部分)
开源 , 代码模型与一键式产业化工具
为了方便研发人员和商业合作伙伴共享效果领先的情感分析技术,百度开源了基于 SKEP 的情感预训练代码和中英预训练模型。
此外,为了进一步降低用户的使用门槛,百度在 SKEP 开源项目中集成了业界首个面向产业化的一键式情感分析训练和预测工具。用户只需要几行代码即可实现基于 SKEP 的情感预训练以及模型预测功能,欢迎用户使用。(开源地址链接见文章开头部分)
商业应用 ,技术开放和商业化
情感分析具有重大的实际商业价值,在消费决策、舆情分析、个性化推荐等领域均有广泛的应用。百度情感分析技术已经在百度的搜索、推荐等产品中应用多年,显著提升了用户体验。
近年来,百度还将情感分析对外进行开放,受到了广大客户的欢迎,并且最新的 SKEP 技术也已经在这些内外场景中开始应用。
其中,中国家电零售连锁企业——国美,作为电商行业标杆客户,借助百度的情感倾向分析、评论观点抽取、观点分类等核心技术,搭建了完整的服务智能化评分系统。
通过应用情感预训练模型 SKEP,国美有效提升了语义模型的泛化能力和预测准确率。服务评分的智能化,使得国美客服运营人力减少40%,负面问题处理率从60%飙升至100%,售后差评率整体降低7%。
为了将百度领先的情感分析能力开放给更多的商业伙伴,更好地赋能行业,百度通过 AI 开放平台开放了基于 SKEP 预训练的情感倾向分析、评论观点抽取、实体级情感分析等服务。
目前该平台已累计支持8万+用户,成为在情感分析领域技术布局最全面,业界使用最广泛的服务平台之一。
百度 AI 开放平台链接
http://ai.baidu.com
总结
百度创新性地提出了基于情感知识增强的预训练模型 SKEP,为各类情感分析任务提供统一且强大的情感语义表示能力,在14个中英数据中刷新了 SOTA 的成绩。此外,为更好地推动技术发展,百度已将 SKEP 相关的模型、代码进行开源开放。
目前,基于 SKEP 的情感分析能力已经在商业上有了较为广泛的应用。未来,百度将继续研发更先进的情感分析技术,将最新最好的技术共享出来,赋能广大的行业和用户。
点击链接即可跳转 SKEP 开源地址!