PPT 下载 | 神策数据算法专家：推荐系统的实践与思考（下）

栏目: 编程工具 · 发布时间: 7年前

内容简介：本文内容来自神策数据《智能推荐——应用场景与技术难点剖析》闭门会分享内容整理，分享者为神策数据算法专家胡士文，分享主题为《推荐系统的实践与思考》，前面我们介绍了算法和数据部分在解决了算法和数据层面的问题之后，我们需要构建一个推荐系统的在线服务，用来响应用户的推荐请求。假设企业初期的 DAU 是 10 万，当 DAU 涨到一百万的时候，希望能够通过增加机器的形式，解决服务性能响应的问题。如果每当 DAU 扩大时就要去重构推荐服务的话，代价实在太大，所以我们希望我们的推荐服务具备高可扩展性。

本文内容来自神策数据《智能推荐——应用场景与技术难点剖析》闭门会分享内容整理，分享者为神策数据算法专家胡士文，分享主题为《推荐系统的实践与思考》，前面我们介绍了算法和数据部分 PPT 下载 | 神策数据算法专家：推荐系统的实践与思考（上），本篇文章将继续介绍推荐系统的在线服务和评估方法。

推荐系统之效果评估

评估一个推荐系统，会涉及到一些常用指标：点击率、点击人数比、人均点击次数、留存率、转化率等。

点击人数比

指点击的人数除以推荐的曝光人数，这是一个用来衡量推荐系统触达率的一个重要指标。在评估一个模型效果时，可能点击率上涨，但点击人数比并没有变化，这说明推荐结果只对于部分老用户产生比较好的效果，对于触达不到的用户，仍然没有成功吸引他们来使用我们的推荐系统，所以点击人数比与点击率是对推荐系统在不同方面的评估。

人均点击次数

指每个人在推荐系统里面平均每天点击了多少次。人均点击次数是需要大家持续去关注的指标，因为这个指标真正体现出用户在这款产品中的使用深度。

留存率和转化率

留存率和转化率实际上来说对于推荐系统来说，可能并不是一个那么直接的指标，比如推荐对留存的影响到底有多大，很大程度上决定于不同的产品形态，但它仍是我们去评估推荐系统的一个指标，至少我们需要知道此次推荐系统的迭代到底对于留存率的影响有多大，如果迭代后的留存率下降，即使点击率和点击人数比都在上升，可能这一次迭代仍不能上线，因为它影响了留存的指标。

还有一些方面，其实在之前的文章中神策数据 VP 张涛：个性化推荐从入门到精通（附推荐产品经理修炼秘籍）已经跟大家提到过。

时效性。如果我们在做一个新闻产品的推荐系统，那么给用户推荐的内容就应该是实时的，而不是上周发生的事情。

多样性。多样性其实是容易被忽视的一个指标，因为如果不追求多样性的话，点击率的数据会好看一点。

不知道大家有没有这样的体验，如果你对体育内容感兴趣，慢慢的你所有的推荐内容都变成了体育相关，似乎很难看到其他内容，推荐的内容越来越窄。短期来说，提升多样性可能会让点击率有一些损失，但是长期来说，多样性是为了提升整个产品用户体验所做的一种优化，这里需要考虑长期和短期的权衡。

稳定性。如果服务器经常挂掉，或者说响应时间总是五秒钟，这样的服务基本上是不可用的，我们一定要站在服务的角度去评估我们的推荐系统。

覆盖率。覆盖率指能够推荐出来足够多的长尾内容，一个 UGC 平台，需要去鼓励一些用户让他们来生成内容，即使是一些很小的用户，即使没有粉丝，我也希望他的内容可以有一些曝光，有曝光就会有人去点赞，久而久之会形成一种良性循环。

如果平台总是分发一些大 V 的内容，平台里小白用户的使用和体验就会变得非常糟糕，慢慢的就没有这些小的内容窗口了，平台将被大 V 占领，所以覆盖率也是一个推荐系统需要考虑的指标。

至于具体需要去考虑哪些指标，以及怎么去制定这些指标，我觉得要根据不同的产品形态以及产品不同的阶段而定。

那么面对这些指标，我们有给力的分析工具去支持我做这件事情吗？比如我想对比推荐系统的转化率和另外一个 banner 的转化率区别的时候，我们的分析工具具备这种能力吗？

在我的日常工作中，是依据神策分析去做整个转化率漏斗分析，以及留存分析等。留存分析其实是一种比较复杂的分析方法，它强调的维度比较多，它可能要从各个时间段以及各个条件去分析用户的留存行为。

如果想要去分析推荐效果对于留存的影响，可以直接在神策分析中去做留存率的分析。

PPT 下载 | 神策数据算法专家：推荐系统的实践与思考（下）

另外，跟大家分享一些关于迭代的思路。

以下图为例，我们分析推荐系统在 12 月 18 号新增用户上的不同表现。

PPT 下载 | 神策数据算法专家：推荐系统的实践与思考（下）

我们想知道，对于新用户和老用户而言，推荐系统的这次迭代表现究竟如何。

从图中可知，新用户在第二天有一个明显的提升，但是老用户并没有。说明这一次模型的上线对于新用户而言效果是较好的，我们要进一步去分析——为什么会对新用户的效果提升明显而对老用户没什么效果。

可能是因为使用的数据采样方式对于新用户更加有利，或者是因为对于新用户的特征反馈比较及时，而对老用户的一些长期特征做了一些不太合适的处理方式等等，都有可能。

所以，实现一个好用的推荐系统，可能面临这几方面的挑战：

第一，数据获取和处理质量，就是我前面提到的如何做数据的采集，以及如何做特征工程。

第二，将算法跟业务结合，我们怎么去深入地理解业务场景，以及去选择合适的算法方案。

第三，构建推荐系统和评价体系，以及如何去解决在线服务这部分的挑战。

第四，成本控制，当我们去从头构建算法、数据、在线服务以及评估方法这几个方面的事情时，人力和时间都会耗费相当大的成本。

最后回答演讲刚开始时大家问我的一个问题——如何搭建一个闭环，让其流程化体系化。其实就是神策智能推荐系统的核心优势——全流程、实时、可快速迭代的推荐闭环。

PPT 下载 | 神策数据算法专家：推荐系统的实践与思考（下）

通过我的分享，大家也可以看到我们在实际构建一个推荐系统时，会遇到各种各样的问题，基于之前的经验，数据质量是非常需要注意的一部分。它包括全端采集数据、数据处理和建模、标签体系和用户画像建立。

接着，当我们有了数据后我们就去构建算法，我们拥有丰富的算法建模经验，并且数据基于神策分析，拥有实时数据反馈和快速的建模能力。

在算法生效之后，我们会对结果进行多维的验证分析，一方面我们要对于本次的推荐效果有一个认知，另外一方面要明白后续将如何改进。同时，在我们提供的解决方案里，还有两个比较重要的环节。

第一，神策数据是一家支持私有化部署的公司，所以神策智能推荐系统同样支持私有化部署，一整套系统都部署在客户自己的服务器层。

第二，具有开放性。各种中间数据和接口客户都可以自己去调用，比如我们帮助客户采集行为数据，在构建整个推荐系统时所生成的各种用户画像和模型结果，以及内容分析的一些结果，还有各个阶段产生的一些模型方法，客户都可以去调动。神策数据的解决方案是一个开放性的白盒，从实验设计，到数据的采集，到中间的特征工程，到模型构建，到最终推荐结果，里面的数据和接口都可供客户访问和查看。

最后，我想强调两点内容：

第一，推荐系统不只是算法，它是一个系统工程，算法只占四个部分中的一部分，通常我们去实现一个推荐系统时，构建算法的时间通常只占 20% 到 30%。

第二，数据先行，数据是一切算法的前提，根据过去的经验总结，很多时候真的不是因为模型的问题，也不是因为服务的问题，而就是因为数据没有做对，导致我们推荐系统的效果没有那么符合预期。

以上就是我从多年的工作经验和实践中总结出的一些关于推荐系统的思考，希望能对大家的工作有所启发。

更多干货和案例，可以关注“神策数据”和“用户行为洞察研究院”公众号了解~ PPT 下载 | 神策数据算法专家：推荐系统的实践与思考（下）

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

计算的本质

[英] Tom Stuart / 张伟 / 人民邮电出版社 / 2014-11 / 69.00元

《计算的本质：深入剖析程序和计算机》借助Ruby全面介绍计算理论和编程语言的设计。作者注重实用性，不仅尽量抛开复杂难懂的数学符号，而且特别选用简单快捷的编程语言Ruby，在读者熟知的背景知识下，以明晰的可工作代码阐明形式语义、自动机理论，以及通过lambda演算进行函数式编程等计算机科学知识，并为让其自行探索做足准备。本书适合计算机科学系学生，以及熟知现代编程语言，想要系统地学习计算机科学......一起来看看《计算的本质》这本书的介绍吧!

码农工具