在上一篇文章中,我们介绍了推荐系统的主要工作流程。在接下来的文章中,我们会详细分析推荐系统中的过滤技术。
推荐系统中不同的过滤技术
推荐系统要想为用户提供切实有用的推荐服务,高效、准确的推荐技术至关重要,也就是说,理解不同推荐过滤技术的特征和潜力至关重要。
下图显示了推荐系统中不同的过滤技术:
推荐系统中不同的过滤技术
基于内容的过滤技术(Content-based filtering)
基于内容的过滤技术(CBF)是一种依赖于域的算法,在生成预测时,它更多地强调对项目属性的分析。当被推荐的对象是网页、出版物和新闻等文本型项目时,这种过滤技术是最成功的。
基于内容的过滤技术推荐时要依赖用户画像,而用户画像是从用户评估过的项目中获取,与用户的积极评价最相关的项目会被推荐给用户。
为了生成有意义的推荐结果,CBF会使用不同的模型来查找文本项目之间的相似性。它可以使用向量空间模型( Vector Space Model),如关键词权重计算法(TF / IDF,Term Frequency Inverse Document Frequency),或概率模型,如朴素贝叶斯分类器、决策树、或神经网络,在语料库中模拟不同文本项目之间的关系。之后,通过统计分析或机器学习技术来学习基础模型,从而生成推荐结果。
基于内容的过滤技术不需要参照其他用户画像,因为其他用户画像不会影响推荐的最终结果。而且,如果用户画像发生变化,CBF技术仍有可能在很短的时间内调整推荐结果。该技术的主要不足是需要系统对项目内容的特征有足够深入的了解。
基于内容的过滤技术的利弊
基于内容的过滤克服了协同过滤遇到的问题——即使没有用户提供评级,基于内容的过滤也可以向用户推荐新商品。因此,即使数据库中不包含用户兴趣爱好,也不会影响推荐结果的准确性。
而且,如果用户兴趣爱好发生变化,基于内容的过滤可以在短时间内调整其推荐结果。用户可以在不共享其个人信息的情况下获得推荐结果,这一点大大确保了个人隐私的安全性。
此外, CBF技术还可以提供关于如何向用户生成推荐的解释。
然而,基于内容的过滤技术取决于项目的元数据。也就是说,在向用户推荐之前,系统需要丰富的项目内容描述和完整的用户画像,即“有限内容分析”。因此,CBF的有效性取决于描述性数据的可用性。
而内容过度专业是CBF技术面临的另一个严重问题。用户只能获得与其自身画像中的项目类似的推荐结果。
以上就是我们对基于内容的过滤技术的介绍,下一篇文章我们将关注协同过滤技术,欢迎阅读!
先荐是一款赋能媒体的AI产品,是集内容上传、内容管理、内容分发、推荐干预、前端渲染于一体的一站式推荐服务可视化平台,支持PC、WAP、APP全平台接入,帮助媒体从0到1搭建推荐系统,显著提升用户活跃、留存、观看时长等重要业务指标,在减少技术成本投入的同时,大幅提高媒体运营效率,从而实现业务智能化转型。目前已服务人民日报、环球网、花瓣网、果壳网、段友、36氪、简书等三百余家内容平台,其中在环球网web端的兴趣推荐项目上,实现了点击率58%的提升,同时访问量和营收分别增长了69%、20%。