推荐系统的评估指标

一般推荐系统的参与方有3个：用户、物品提供商、推荐系统提供网站，今天我们就来聊聊如何来评估一个推荐系统的效果呢？一起看下吧！

推荐系统的评估指标

一、评估的两个指标

推荐算法的目标就是提高分发效率：让每一篇内容获得更多的阅读，让每一个用户更多地去点击。从算法角度看，评估指标可以大致拆分为两部分：

推荐准确度

对应到内容推荐系统中，表现为对用户点击的预判（点击率）和对消费情况的预判（点击后的各种主动行为、停留时长）。由于准确度评估是可以复用既有数据进行离线计算的，故通常用于各种算法的迭代。比如，想设计一款新的算法以提升评论量，那么，就将历史上同一用户评论过的内容和未评论的内容输入算法，如果算法能够给前者打分更高，就意味着算法的准确率更高。

推荐覆盖度

好的推荐系统是能够给用户提供视野范围之外的内容的：从用户的角度看，可以评估用户的展示历史中各种题材、类目、话题的丰富程度如何，丰富度越高代表个体体验的多样性越好；从内容的角度看，可以评估有推荐展示的内容占整体内容量的比例，或整个内容分发体系的基尼系数。

以Netflix为例，站在视频是否被播放的角度，使用了ECS（Effective Catalog Size，有效条目数量）指标来衡量系统推荐的多样性。如果系统内绝大多数的播放都来自同一部视频，ECS指标接近1；如果系统内每部视频都有相近的播放量，ECS指标将等于影片数。更高的ECS指标代表了更好的覆盖度。

如图所示，对比了应用个性化推荐算法和只采用热门排序算法的情况，两者的ECS指标相差近4倍，即系统中有更多长尾的视频都得到了有效地展示和播放。

推荐系统的评估指标

二、评估的其他注意点

当然，只有一部算法引擎，推荐系统这部赛车是无法正常运转的。推荐算法应当服务于整体系统应用的目标，比如用户端的内容消费量与长期留存、作者端的活跃度等。为了这些长线目标，会给推荐算法补充很多其他目标，这些目标可能会损失短期点击率。

同样以Netflix为例，由于其采用了付费会员制的商业模式，因此付费会员数量的多少就成了整个推荐系统的目标，并细分出新用户的付费转化、付费用户的续订、退订用户的召回等子目标。国内的视频网站，也早已从单纯追求播放量规模，转化为对视频播放量、付费用户量的多目标追求。

指标是我们对业务的抽象和预判印证，所以，客观上它是后验性的体现。如果只关注已有指标，很容易让我们忽略那些尚未被纳入指标体系之内的信息。比如：如果只有全局内容分发多样性指标而没有个体多样性指标，那么很可能出现全局内容基尼系数不高，但个体多样性体验极差的情况（如爱看足球的人看到了各种小众的足球赛事内容，但看不到自己感兴趣的内容）。又如，某些内容的点击率还不错（如蛇或其他野生动物捕食），但对敏感人群造成了极大的伤害。因此，我们需要在数据指标的基础上，增加人工评估的环节，以帮助系统更好、更快地发现潜在问题。

援引公开博文。脸谱网建立了一套完整的人工评估系统，分为三个部分：一对一用户访谈（One-on-One Interviews），面向常住外包团队（千量级）的人工评估（Feed Quality Panel），面向普通用户（万量级）在应用内投放的问卷（Global Surveys）。其中，人工评估有多种表现形式：

（1）给出两篇内容，让用户进行点对点的对比。

（2）给单篇内容提供打分选项，建议用户从内容与自身偏好的相关性、内容的信息量等角度给予1~5分的评分。

（3）以提出开放性问题的方式来收集用户对自己信息流的反馈。

借助人工问卷反馈，我们也可以发现一些有趣的现象。比如，用户更愿意在信息流的头部看到那些自己愿意互动的内容或是那些自己觉得更重要的信息。基于此，脸谱网对排序算法进行了调整，对用户互动预估（点赞、评论）较高的内容和用户更愿意首先看到的内容进行了提权。

{{userData.name}}已认证

推荐系统的评估指标

一、评估的两个指标

二、评估的其他注意点

复盘第一份运营工作总结

为什么说有些用户需求不该被满足？