打造工业级推荐系统（七）：怎么评估推荐系统的效果？

栏目: 数据库 · 发布时间: 6年前

内容简介：作者在《推荐系统的工程实现》中提到推荐系统要很好地落地到业务中，需要搭建支撑模块，其中效果评估模块就是其中非常重要的一个。本篇文章作者来详细说明怎么评估 (Evaluating) 推荐系统的效果，有哪些评估手段, 在推荐业务中的哪些阶段进行评估，具体的评估方法是什么。借此希望更好地帮助大家在实际业务中实施推荐系统评估模块。本篇作者主要从“什么是一个好的推荐系统”、“在推荐系统业务的各个阶段怎么评估推荐系统”，“推荐系统怎么更好地满足用户的诉求”的角度来讲解。现在，我们从评估的目的、评估的常用指标、评估方法、

作者在《推荐系统的工程实现》中提到推荐系统要很好地落地到业务中，需要搭建支撑模块，其中效果评估模块就是其中非常重要的一个。本篇文章作者来详细说明怎么评估 (Evaluating) 推荐系统的效果，有哪些评估手段, 在推荐业务中的哪些阶段进行评估，具体的评估方法是什么。借此希望更好地帮助大家在实际业务中实施推荐系统评估模块。

本篇作者主要从“什么是一个好的推荐系统”、“在推荐系统业务的各个阶段怎么评估推荐系统”，“推荐系统怎么更好地满足用户的诉求”的角度来讲解。现在，我们从评估的目的、评估的常用指标、评估方法、评估需要关注的问题四个维度来详细说明。

评估推荐的常用指标

怎么评估推荐系统呢？从哪些维度来评估推荐系统呢？这要从推荐系统解决的商业问题来思考，作者在《推荐系统介绍》这篇文章对推荐系统做了比较系统详细的介绍，推荐系统可以很好地解决“标的物”提供方、平台方 (提供产品服务的公司)、用户三方的需求 (见下面图 1)，推荐系统作为嵌入产品的服务模块，它的评估可以从以下四个维度来衡量。

打造工业级推荐系统（七）：怎么评估推荐系统的效果？

图 1：推荐系统通过整合到产品中，为用户提供“标的物”推荐

用户的维度

用户最重要的诉求永远是更方便快捷地发现自己想要 (喜欢) 的“标的物”。推荐系统多好地满足了用户的这个诉求，用户就会多依赖推荐系统。一般来说，从用户维度有如下几类指标可以衡量推荐系统对用户的价值。

01 准确度

准确度评估的是推荐的“标的物“是不是用户喜欢的。拿视频推荐来说，如果推荐的电影用户点击观看了，说明用户喜欢，看的时间长短可以衡量用户的喜好程度。但是要注意，用户没看不代表用户不喜欢，也可能是这个电影用户刚在院线看过。这里所说的准确度更多的是用户使用的主观体验感觉。

02 惊喜度 (serendipity)

所谓惊喜度，就是让用户有耳目一新的感觉，无意中给用户带来惊喜。举个例子，比如作者的朋友春节给我推荐了一部新上映的很不错的电影，但是作者忘记电影名字了，怎么也想不起来，但是突然有一天电视猫给我推荐了这部电影，这时作者会非常惊喜。这种推荐超出了用户的预期，推荐的不一定跟用户的历史兴趣相似，可能是用户不熟悉的，但是用户感觉很满意。

03 新颖性 (novelty)

新颖性就是推荐用户之前没有了解过的“标的物”。人都是“喜新厌旧”的，推荐用户没接触过的东西，可以提升用户的好奇心和探索欲。

04 信任度 (Confidence& Trust)

在现实生活中，如果你信任一个人，他给你推荐的东西往往你会关注或者购买。对推荐系统来说也是类似的，如果推荐系统能够满足用户的需求，用户就会信任推荐系统，会持续使用推荐系统来获取自己喜欢的“标的物”。

05 多样性

用户的兴趣往往是多样的，在做推荐时需要给用户提供多“品类”的“标的物”，以挖掘用户新的兴趣点，拓展用户的兴趣范围，提升用户体验。

06 体验流畅度

推荐系统是一个软件产品，用户的体验是否好，是否卡顿，响应是否及时，对用户的行为决策非常关键。

流畅的用户体验，是推荐服务的基本要求。但只要服务不稳定，响应慢，会极大影响用户体验，甚至导致用户卸载产品。

上面这些指标，有些是可以量化的 (比如精准度、流畅度)，有些是较难量化的 (比如惊喜度、新颖性)，所有这些指标汇聚成用户对推荐模块的满意度。

平台方的维度

平台方提供一个平台 (产品)，对接“标的物”提供方和用户，通过服务好这两方来赚取商业利润。不同产品挣取利润的方式不同，有的主要从用户身上挣钱 (比如视频网站，通过会员盈利)，有的从“标的物”提供方挣钱 (比如淘宝，通过商家的提成及提供给商家的服务挣钱)，有的两者兼而有之，但大部分互联网产品都会通过广告挣钱 (广告主买单，即所谓的”羊毛出在猪身上”)。不管哪种情况，平台方都要服务好用户和“标的物“提供方 (有些产品平台方和”标的物”提供方是一样的，比如视频网站，是直接花钱购买视频版权的)。

对于平台方来说，商业目标是最重要的指标之一，平台方的盈利目的又需要借助用户来实现 (不管是用户购买，还是广告，都需要有大量用户)，所以平台方除了关注绝对的收益外，还需要关注用户活跃、留存、转化、使用时长等用户使用维度的指标。

推荐系统怎么更好的促进收益增长，促进用户活跃、留存、转化等就是平台方最关注的商业指标。

同时，为第三方提供平台服务的平台方 (如淘宝商城)，还需要考虑到商家生态的稳定发展。为好的商家提供获取更多收益的机会也是平台方的责任和义务。

所以，站在平台方角度看，最重要的指标主要有如下 3 类：

用户行为相关指标；
商业变现相关指标；
商家 (即“标的物”提供方) 相关指标；

我会在下一篇文章《推荐系统的商业价值》中详细探讨推荐系统的商业价值，本文不会过多讲解推荐系统的商业指标。

标的物提供方的维度

“标的物”的提供方通过为用户提供“标的物”获取收益 (如淘宝上的商家通过售卖物品获取收益)，怎么将自己更多的“标的物”更快的“卖出去”是“标的物”提供方的诉求。评估推荐系统为“标的物”提供方创造价值的指标除了下面的覆盖率和挖掘长尾能力，还有更多的商业化指标，这里不做过多说明，作者会在下篇文章《推荐系统的商业价值》中详细讲解。

01 覆盖率

从“标的物”提供方的角度来看，希望自己提供的“标的物”都能够被用户“相中”，不然这个“标的物”就没有任何价值。所以推荐系统需要将更多的“标的物”推荐 (曝光) 出去，只有曝光出去，才有被用户“消费”的可能。

02 挖掘长尾的能力

推荐系统的一个重要价值就是发现长尾 (长尾理论是 ChrisAnderson 提出的, 不熟悉该理论的读者可以自行百度或者看 ChrisAnderson 出的《长尾理论》一书)，将小众的“标的物”分发给喜欢该类“标的物”的用户。度量出推荐系统挖掘长尾的能力，对促进长尾“标的物”的“变现”及更好地满足用户的小众需求从而提升用户的惊喜度非常有价值。

在线评估

根据上面图 2，推荐系统的在线评估可以分为两个阶段，其实这两个阶段是连接在一起的，这里这样划分主要是方便对相关的评估指标做细分讲解。下面分别来讲解每个阶段可以评估哪些指标及具体的评估方法。

在线评估第一阶段

第一阶段是推荐算法上线服务到用户使用推荐产品这个阶段, 在这个阶段用户通过使用推荐产品触发推荐服务 (平台通过推荐接口为用户提供服务)。这个阶段可以评估的指标有：

01 响应及时稳定性指标

该指标是指推荐接口可以在用户请求推荐服务时及时提供数据反馈, 当然是响应时间越短越好，一般响应时间要控制在 200ms 之内，超过这个时间人肉眼就可以感受到慢了。

服务器响应会受到很多因素影响，比如网络、CDN、Web 服务器、操作系统、数据库、硬件等，一般无法保证用户的每次请求都控制在一定时间内。我们一般采用百分之多少的请求控制在什么时间内这样的指标来评估接口的响应时间 (比如 99% 的请求控制在 50ms 之内)。

那怎么量化服务器的响应情况呢？我们可以在 web 服务器 (如 Nginx) 端对用户访问行为打点，记录用户每次请求的时长 (需要在 web 服务器记录 / 配置接口请求响应时长)，将 web 服务器的日志上传到大数据平台，通过数据分析可以统计出每个接口的响应时长情况。一般公司会采用 CDN 服务来缓存、加速接口，上述从 web 服务器统计的时长，只能统计接口回源部分的流量，被 CDN 扛住的部分流量的响应时长是需要 CDN 厂商配合来统计的。另外，上面统计的 web 服务器响应时长只是 web 服务消耗的时长，用户从触发推荐到返回结果，除了 web 服务器的响应时长，还要加上 web 服务器到用户 APP 这中间的网络传输时长和 APP 处理请求渲染展示出来的时长，这部分时间消耗需要采用其他技术手段来计算统计，这里不再细说。

02 抗高并发能力指标

当用户规模很大时，或者在特定时间点有大量用户访问 (比如双十一的淘宝) 时，在同一时间点有大量用户调用推荐服务，推荐接口的压力会很大，推荐系统能否抗住高并发的压力是一个很大的挑战。

我们可以在接口上线前对接口做打压测试，事先了解接口的抗并发能力。另外可以采用一些技术手段来避免对接口的高并发访问，比如增加缓存，web 服务器具备横向拓展的能力，利用 CDN 资源，在特殊情况下对推荐服务进行分流、限流、降级等。

上述两个指标，作者只做了相对简单的介绍，作者会在后续文章《推荐系统的高可用高并发架构设计》中对这些点做详细讲解，敬请期待。

在线评估第二阶段

第二阶段是用户通过使用推荐算法产生行为 (购买、点击、播放等)，我们通过收集分析用户行为日志来评估相关的指标。这一阶段我们主要站在平台方角度来思考指标，主要有用户行为相关指标、商业化指标、商家相关指标，这里我们只介绍用户行为相关指标。另外说下, 像离线评估中所介绍的一些准确度指标 (如准确率、召回率等) 其实可以通过适当的日志打点来真实的统计出来，计算方式类似，这里也不再细说。

推荐模型上线提供推荐服务后, 最重要的用户行为指标有转化率、购买率、点击率、人均停留时长、人均阅读次数等，一般用户的行为是一个漏斗 (例如，推荐曝光给用户 -> 用点击浏览 -> 用户扫码 -> 用户下单，参考下面的图 4), 我们需要知道从漏斗一层到下一层的转化率。漏斗模型可以非常直观形象的描述用户从前一个阶段到下一个阶段的转化, 非常适合商业上定位问题，通过优化产品流程，提升用户在各个阶段的转化。

打造工业级推荐系统（七）：怎么评估推荐系统的效果？

图 4：用户行为的漏斗模型

线上评估一般会结合 AB 测试技术，当采用新算法或者有新的 UI 交互优化时，将用户分为 AB 两组，先放一部分流量给测试组 (有算法或 UI 优化的组)，对比组是优化之前的组。如果测试组与对比组在相同指标上有更好的表现, 显著 (具备统计显著性) 提升了点击或者转化，并且提升是稳定的，后续逐步将优化拓展到所有用户。这种借助 AB 测试小心求证的方法，可以避免直接一次性将新模型替换旧模型，但是上线后效果不好的情况发生（会严重影响用户体验和收益指标，造成无法挽回的损失）。

另外, 针对用户行为指标, 我们需要将推荐算法产生的指标与大盘指标 (用户在整个产品的相关指标) 对比, 可以更好地体现推荐算法的优势 (比如通过推荐系统产生的人均播放次数和人均播放时长比大盘高，就可以体现推荐的价值)，让推荐系统和推荐工程师的价值得到真正的体现，也可以让管理层从数据上了解推荐的价值。

最后，通过日志分析，我们可以知道哪些“标的物”是流行的，哪些是长尾。拿视频推荐来举例，我们可以根据二八定律，将电影播放量降序排列，播放量占总播放量 80% 的前面的电影，算作热门电影，后面的当做长尾 (参考下面图 5)。

在度量推荐系统长尾能力时，我们可以从如下三个维度来度量：

所有长尾“标的物”中每天有多少比例被分发出去了 ;
有多少比例的用户，推荐过了长尾“标的物”；
长尾内容的转化情况和产生的商业价值；

打造工业级推荐系统（七）：怎么评估推荐系统的效果？

图 5：对于电影推荐，长尾的定义

3 主观评估

第二节提到了很多用户维度的指标，如准确度、惊喜度、新颖性、信任度、体验流畅度等。这些指标有很多是用户的使用主观感受 (如惊喜度)，有些指标也因人而异 (如新颖性)，有些很难利用已知的数据来量化 (如信任度)。

针对上面这些指标, 我们可以通过主观评估的方式来获得用户对推荐系统的真实评价。具体的方式可以是用户问卷调查、电话访谈、跟用户直接见面沟通等。这些方式可以很直接直观的知道用户对推荐产品的反馈和想法，是很重要的一种评估推荐系统的补充方式。主观评估要想真实的发现推荐系统存在的问题，需要注意很多问题，下面针对主观评估做如下 5 点说明，作为主观评估有效执行的指导建议。

主观评估是很消耗时间的，特别是电话沟通和见面访谈，即使是问卷调查，也需要很好地设计问卷的问题；
让用户参与主观评估，往往需要给用户一定的好处，需要一定的资金支持；
需要确保选择的样本有代表性，能够真实的代表产品的用户，所以选择的样本量不能太少，抽样方法也需要科学选择；
设计问卷时，最好不要直接问“你觉得我们的推荐系统有惊喜度吗？”这样的问题，而要“我们的推荐系统给你推荐了哪些你特别想看，但是一直通过其他渠道没有发现的电影？”这样问，具体怎么设计问卷可以参考相关的专业书籍；
用户访谈或者电话沟通时，用户的回答不一定是真实的想法，用户真实的想法可能不好意思表现出来，或者会选择讨好你的回答方式 (毕竟参与调研的用户多少获取了一定的物质报酬)，调研者需要特别注意，采用一定的沟通技巧，尽量真实挖掘出用户的想法；

打造工业级推荐系统（七）：怎么评估推荐系统的效果？

推荐评估的目的

评估推荐的常用指标

用户的维度

01 准确度

02 惊喜度 (serendipity)

平台方的维度

推荐系统自身维度

标的物提供方的维度

推荐系统的评估方法

离线评估

1、推荐算法作为评分预测模型

2、推荐算法作为分类模型

3、推荐算法作为排序学习模型

02 覆盖率指标

03 多样性指标

04 实时性指标

05 鲁棒性指标

06 其他指标

在线评估

在线评估第一阶段

01 响应及时稳定性指标

02 抗高并发能力指标

在线评估第二阶段

3 主观评估

推荐系统评估需要关注的问题

01 离线评估准确度高的模型，在线评估不一定高

02 推荐系统寻求的是一个全局最优化的方案 (解)

03 推荐系统是一个多目标优化问题

04AB 测试平台对推荐评估的巨大价值

05 重视线上用户行为及商业变现方面的评估

写在最后

怎样解题

JS 压缩/解压工具

RGB CMYK 转换工具

HEX HSV 转换工具