【专利解密】拒绝标题党！腾讯智能标题党检测方案

【嘉勤点评】腾讯发明的基于人工智能的标题党识别方法，通过融合采集到的媒体特征和文本特征，得到具有更多信息的高维特征以分析是否为标题党，这种多模态特征计算的方案相比于手工特征要更加地准确以及便捷。

集微网消息，在生活中，我们经常可以听到“标题党”这三个字，通常这样的标题党会使用吸引用户眼球的标题来增加点击量，但是其内容质量却往往不高，因此会让读者有种“上当受骗”的感觉。

随着自媒体的涌现，网络上出现了很多由个人以及小团体运营的服务内容，这其中就不乏有很多的标题党。为了更大程度地吸引用户浏览上传的媒体数据以获取流量，标题党们往往会将标题设定为较为吸引用户的内容，但是该标题反映的内容往往过分夸大，脱离了媒体数据的真实内容，来恶意引起用户点击和播放。

而今天我们带来的专利技术，则恰恰是针对于这个问题。在2019年9月17日，腾讯申请了一项名为“一种基于人工智能的标题党识别方法和相关装置”的发明专利（申请号：201910877080.1），申请人为腾讯科技（深圳）有限公司。

该专利采用人工智能方法，可以智能地对于标题党媒体进行识别，根据目前公开的相关资料，让我们一起来看看这项方案吧。

如上图，为该专利中发明的标题党识别方法的应用场景示意图，该方法主要应用在服务器端，如图中的服务器101，通过其获取待识别媒体数据，待识别媒体就是上传者上传至媒体平台、需要被识别是否为标题党媒体的数据，其中包含着上传内容、标题和文本信息等。我们可以推测，该服务器专门用于识别媒体数据，当用户上传内容时，首先会经过该服务器的处理，然后再将合格的媒体内容传递到数据库服务器中。

待识别的媒体特征包括有媒体特征和文本特征，这两者从不同的维度体现待识别媒体数据的特点，服务器会对于这两个特征进行融合，从而得到多模态特征，这种数据是一种高维特征，其中蕴含有更加丰富的特征，能够从多个维度表征识别媒体数据的特点。因此，该方案才能够根据多模态特征计算待识别媒体属于标题党的概率，而以概率确定待识别媒体数据是否属于标题党会更加精准。

如上图，为具体的标题党识别方法的流程图，系统首先获取待识别的媒体数据，包括视频、音频和文字等内容，接着利用媒体分类模型来确定待识别媒体数据的媒体特征以及媒体数据的文本特征。由于标题党实际上就是标题信息等文本信息对媒体内容过分夸大，与媒体内容不相符，因此，为了确定待识别媒体数据是否为标题党媒体数据，就需要提取这两个特征。

其次，服务器会对媒体特征和文本特征进行融合以得到多模态特征，融合的方式例如使用双向注意力机制对媒体特征和文本特征进行融合。最后，根据获得的多模态特征，利用标题党分类模型计算待识别媒体数据属于标题党媒体数据的概率，再根据概率来判断是否属于，如果大于设定的阈值，例如概率大于0.5就认为其属于标题党媒体。

以上就是腾讯发明的基于人工智能的标题党识别方法，该方案利用采集到的媒体特征和文本特征，利用人工智能技术进行特征融合后得到具有更多信息的高维特征，能够从多个维度表征识别媒体数据的特点，因此根据这种多模态特征计算是否属于标题党会更加准确，从而提高了标题党的识别能力。

关于嘉勤

深圳市嘉勤知识产权代理有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成，熟悉中欧美知识产权法律理论和实务，在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。

（校对/holly）

推荐阅读

目录