推荐策略中的“召回”

栏目: 数据库 · 发布时间: 7年前

内容简介：当你打开一个资讯APP刷新闻时，有没有想过，系统是如何迅速推送给你你想看的内容？资讯APP背后有一个巨大的内容池，系统是如何判断要不要将某条资讯推送给你的呢？这就是笔者今天想跟大家探讨的问题——推荐策略中的召回。推荐系统如何根据已有的用户画像和内容画像去推荐，涉及到两个关键问题：召回和排序。

当你打开一个资讯APP刷新闻时，有没有想过，系统是如何迅速推送给你你想看的内容？资讯APP背后有一个巨大的内容池，系统是如何判断要不要将某条资讯推送给你的呢？这就是笔者今天想跟大家探讨的问题——推荐策略中的召回。

推荐策略中的“召回”

召回是什么

推荐系统如何根据已有的用户画像和内容画像去推荐，涉及到两个关键问题：召回和排序。

“召回（match）”指从全量信息集合中触发尽可能多的正确结果，并将结果返回给“排序”。

召回的方式有多种：协同过滤、主题模型、内容召回和热点召回等，而“排序（rank）“则是对所有召回的内容进行打分排序，选出得分最高的几个结果推荐给用户。

推荐策略中的“召回”

图1 推荐系统的算法流程

在搜索系统中，用户会输入明确的搜索词，根据搜索词进行内容的召回和呈现即可，但在推荐系统中，用户没有一个明确的检索词（Query）输入，推荐系统需要做的，就是根据用户画像、内容画像等各种信息为用户推荐他可能感兴趣的内容。

另外，由于没有明确的检索词，推荐系统就需要从整个信息集合中挑选出尽可能多的相关结果，同时又需要剔除相关性较弱的结果，降低排序阶段的工作量。

怎样的召回策略是好的

召回策略的评估主要根据两个评价指标：召回率和准确率。

召回率（Recall）=系统检索到的相关内容 / 系统所有相关的内容总数准确率（Precision）=系统检索到的相关内容 / 系统所有检索到的内容总数。

以搜索为例，当用户搜索“北京大学”时，想看到北大相关的网站、新闻等，系统返回了以下三个网页：

a. 北京大学保安考上研究生；

b. 北京互联网工作招聘；

c. 大学生活是什么样的；

可以看到，只有a是用户真正想看到的，其他两个和用户搜索词无关，而事实上数据库里还有这种网页：

d. 北大开学季；

e. 未名湖的景色；

d、e这两个网页没被搜索到，但它们和“北京大学”的相关度其实是超过b、c的，也就是应该被搜索（被召回）到但实际并没有显示在结果里的，所以，这个系统的：

召回率 = a / (a + d + e)=0.33；
准确率 = a /(a + b + c)=0.33。

这是搜索情境下的召回率和准确率，而“推荐”其实就是没有检索词输入时的搜索，例如，用户并没有输入“北京大学”这样的关键词，但其实他是北京大学的学生，对自己学校相关的新闻很感兴趣，推荐系统的召回就是要根据用户画像、内容画像等各种信息，为用户提供他感兴趣的相关内容，所以也存在召回率和准确率的问题。

召回率和准确率有时存在相互制衡的情况，好的召回策略应该在保证高准确率的情况下也保证高召回率。

当然，召回率和准确率也是存在一定关系的，而我们在做实际项目的优化目标通常是希望用户所检索的内容能够在召回率和准确率两方面都表现都好。

举个例子（或许不够准确，仅供参考）如表1，机器在给用户推荐内容的时候，会出现A（准确并召回）、B（准确不召回）、C（不准确召回）、D（不准确不召回）四种情况。那么，最理想的就是A、C两种情况。

推荐策略中的“召回”

表1 内容召回的4种情况

今日头条的召回策略

今日头条作为业界推荐系统方面的顶级选手，不免有人会好奇，它的召回策略是怎样的？

今日头条的算法架构师曾在接受采访时表示，今日头条有一个世界范围内比较大的在线训练推荐模型，包括几百亿特征和几十亿的向量特征。但因为头条目前的内容量非常大，加上小视频内容有千万级别，推荐系统不可能所有内容全部由模型预估。所以需要设计一些召回策略，从庞大内容中筛选一个模型组成内容库。

召回策略种类有很多，今日头条主要用的是倒排的思路。离线维护一个倒排，这个倒排的key可以是分类，topic，实体，来源等，排序考虑热度、新鲜度、动作等。线上召回可以迅速从倒排中根据用户兴趣标签对内容做截断，高效地从很大的内容库中筛选比较靠谱的一小部分内容。基于召回策略，把一个海量、无法把握的内容库，变成一个相对小、可以把握的内容库，再进入推荐模型。这样有效平衡了计算成本和效果。

参考文献

【1】闫泽华，《内容算法》，中信出版集团

【2】CSDN博客：信息流推荐算法实践 &深入 https://blog.csdn.net/dengxing1234/article/details/79756265

【3】IBM官网资料探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探

【4】今日头条推荐算法原理首公开，头条首席算法架构师带来详细解读 https://www.leiphone.com/news/201801/XlIxFZ5W3j8MvaEL.html

本文由 @Alex 原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

疯狂又脆弱坚定又柔软

朱墨 / 湖南文艺出版社 / 2018-3 / 39.80元

《疯狂又脆弱坚定又柔软》是朱墨的一部作品集，介绍了作者考研到北京，工作在华谊，以及留学去英国的经历，在这短短几年中她一路升职加薪，25岁升任华谊宣传总监，27岁赚到人生的第一笔100万，30岁却毅然离职去英国留学，在表面的光鲜亮丽之下，她也曾付出过外人所不知道的心血和努力。她的人生告诉我们，每一个身居高位或者肆意潇洒的人，都曾为梦想疯狂地倾尽全力，而那些心怀梦想的人也总是怀揣一颗坚定又柔软的内心......一起来看看《疯狂又脆弱坚定又柔软》这本书的介绍吧!

码农工具

推荐策略中的“召回”

召回是什么

“召回（match）”指从全量信息集合中触发尽可能多的正确结果，并将结果返回给“排序”。

怎样的召回策略是好的

推荐系统如何召回

1. 基于内容匹配的召回

内容匹配即将用户画像与内容画像进行匹配，又分为基于内容标签的匹配和基于知识的匹配。

2. 基于协同过滤的召回

今日头条的召回策略

疯狂又脆弱坚定又柔软

HTML 编码/解码

XML、JSON 在线转换

RGB CMYK 转换工具

推荐策略中的“召回”

召回是什么

“召回（match）”指从全量信息集合中触发尽可能多的正确结果，并将结果返回给“排序”。

怎样的召回策略是好的

推荐系统如何召回

1. 基于内容匹配的召回

内容匹配即将用户画像与内容画像进行匹配，又分为基于内容标签的匹配和基于知识的匹配。

2. 基于协同过滤的召回

今日头条的召回策略

疯狂又脆弱 坚定又柔软

HTML 编码/解码

XML、JSON 在线转换

RGB CMYK 转换工具

疯狂又脆弱坚定又柔软