在推荐系统中，研究人员为了能让预测结果对用户提供更多价值，会关注用户满意度。鉴于推荐系统除了让用户购买更多的相似产品外，还必须对用户而言“有用”，研究人员还会关注用户在使用系统时的交互体验和消费体验。目前，研究人员正在通过评估不同的指标来解决这个问题，而不是简单地通过预测准确度和机器学习技术。

推荐系统的性能应该由它为用户产生的价值来衡量。在推荐系统的评估问题上，目前有很多指标，比如说覆盖率、新颖性、多样性、惊喜度。这些评估方法名称各不相同。

有些学者把推荐系统中的新颖性、相关性、惊喜度等称其为“概念（concept ）”，另一些学者则称其为“维度（dimensions）”，还有些人称其为“推荐系统评估的方法（measures of recommender system evaluation）”。

在本文中，我们将使用“概念”一词，指代评估推荐系统时的不同方面。在对现有概念归类后，我们将其分为了六大类：实用性、新颖性、多样性、奇异性、覆盖率、惊喜度和覆盖率。但还有一些概念未提及，如：信任、风险、鲁棒性、隐私、适应性和可扩展性。为了方便读者阅读，我们会把这几大概念用不同的篇幅呈现。

表1总结了本文在所有评估指标中使用的符号。
在这里插入图片描述

实用性

推荐系统的实用性有很多别称，例如相关性、有用性、推荐价值和用户满意度等。《推荐系统手册》（Recommender Systems Handbook）认为，实用性代表了用户在推荐时所获得的价值。如果用户喜欢推荐的项目，他/她收到的推荐就是有用的。实用性还被定义为用户消费偏好顺序。如果用户只消费他们最喜欢的东西，那么推荐这些项目能帮助用户更快找到心中所爱，从而达到推荐的实用性。

可以看出，大多数定义将实用性与用户消费的愿望与用户满意度挂钩。在这样的定义中，评估推荐系统的实用性应该集中在用户对推荐系统生成的预测做何反应。我们可以通过评估用户在消费物品后给出的评级，从而衡量推荐系统实用性。如果推荐结果为用户带来了价值，这种方法似乎是可取的，但这涉及到了在线评估。而说到离线评估，部分学者建议使用基于准确度的指标来评估。

在本文中，我们使用符号????（??）util（Ru）来表示推荐系统的实用性，评估实用性的指标会在下文中一一介绍。

1. 误差度量（Error metrics）

误差度量被广泛用于预测准确性。平均绝对误差（MAE，Mean Absolute Error）能够评估推荐系统预测的评级与用户给出的评级之间的差异。

公式1显示的是MAE指标。
在这里插入图片描述

此外，均方根误差（RMSE，Root Mean Squared Error）是另一种误差度量标准，用来计算评级预测中较大误差之间的差异如公式2所示。

在这里插入图片描述
标准差是用来衡量一组数自身的离散程度，而均方根误差是用来衡量观测值同真值之间的偏差，它们的研究对象和研究目的不同，但是计算过程类似，都是在预测列表上计算的。

此外，还有其他误差度量标准，例如平均RMSE （Average RMSE），平均MAE（ Average MAE）和均方误差（Mean Squared Error）。

2. 精确度（Precision）和召回（Recall）

推荐的精确度包括推荐列表中用户消费（或评级）项目的数量，如公式3所述。精确度能够测量推荐列表中用户喜欢并消费的项目的比率。
在这里插入图片描述

召回是根据用户消费的项目总数中，出现在推荐列表中的消费项目数计算得出的。公式4则指召回计算。

在这里插入图片描述

3. ROC曲线

ROC曲线的全称是Receiver Operating Characteristic Curve，中文名字叫“受试者工作特征曲线”，顾名思义，其主要的分析方法就是画这条特征曲线。

在这里插入图片描述
ROC曲线能够测量推荐列表中用户喜欢的项目的比率。与误差度量、精确度和召回指标不同，ROC曲线的计算强调推荐但用户不喜欢的项目。在不同情景下对算法的评估可以使用ROC曲线下的面积（AUC，Area under the ROC curve）。

4. 排序（Ranking score）

在评估推荐列表时引用排序指标很有用。推荐系统通常预测排名列表，然而用户不太可能浏览所有的项目。因此，排序指标在测量实用性和排名信息时可能很有趣。排序靠前的项目更重要。

公式5指R-Score度量，其中?（?，?）r（i，j）是等级中项目?i的等级，?d是中值等级，αα代表半衰期衰减值。

在这里插入图片描述
除了R-Score，还有其他排名指标，如 Kendall and Spearman rank correlation 和Normalized Distance-based Performance Measure。

5. 基于实用性的在线评估指标

在在线评估中，还会同用户一起评估推荐系统的实用性。研究人员通常会进行用户试验，来测试其推荐系统的实用性，或在行业应用时对其进行评估。

点击率（CTR，Click-through-rate）是计算推荐商品数量中用户已点击/互动的推荐商品的比率。自网络/移动广告和在线营销兴起以来，点击率就开始进入人们的视野。点击率也是在推荐系统中的主要的度量标准，有助于研究用户推荐项目的有效消费数量。

点击率被用作推荐系统实用性评估指标的前提是，用户如果点击/交互/消费推荐项目，那么该推荐对用户而言有用。从商业角度来看，它显示了推荐系统在预测方面的有效性。度量标准可以在公式6中看到。

在这里插入图片描述
存留（Retention）也是用于在线评估推荐系统的指标。存留能够衡量推荐系统在保持用户消费行为或使用系统等方面的影响。存留一直是评估的焦点，已被应用于许多场景中。

值得一提的是，前面提到的推荐系统实用性评估指标同样适用于在线评估。例如，基于准确度的指标（例如误差度量、精确度、召回）也适用于在线评估。

先荐是一款赋能媒体的AI产品，是集内容上传、内容管理、内容分发、推荐干预、前端渲染于一体的一站式推荐服务可视化平台，支持PC、WAP、APP全平台接入，帮助媒体从0到1搭建推荐系统，显著提升用户活跃、留存、观看时长等重要业务指标，在减少技术成本投入的同时，大幅提高媒体运营效率，从而实现业务智能化转型。目前已服务人民日报、环球网、花瓣网、果壳网、段友、36氪、简书等三百余家内容平台，其中在环球网web端的兴趣推荐项目上，实现了点击率58%的提升，同时访问量和营收分别增长了69%、20%。

用于推荐系统评估的概念与指标

实用性

1. 误差度量（Error metrics）

2. 精确度（Precision）和召回（Recall）

3. ROC曲线

4. 排序（Ranking score）

5. 基于实用性的在线评估指标

推荐阅读

目录