今日头条:AI助力用户推荐 (上)

栏目: 编程工具 · 发布时间: 6年前

内容简介:众所周知,字节跳动旗下的产品,无论是今日头条还是抖音,均是在AI的赋能下发展的如鱼得水。那么,今日头条的精准推荐是基于AI的哪些技术?又是如何实践的呢?本文笔者将推理出今日头条的底层AI技术力量和对AI的具体应用,共分上下两篇以飨读者。基于今日头条用户分享的图像、文字及用户标签数据,为用户推荐潜在的好友,从而更好的为用户做个性化推荐和精准化服务。

众所周知,字节跳动旗下的产品,无论是今日头条还是抖音,均是在AI的赋能下发展的如鱼得水。那么,今日头条的精准推荐是基于AI的哪些技术?又是如何实践的呢?本文笔者将推理出今日头条的底层AI技术力量和对AI的具体应用,共分上下两篇以飨读者。

今日头条:AI助力用户推荐 (上)

方法:

基于今日头条用户分享的图像、文字及用户标签数据,为用户推荐潜在的好友,从而更好的为用户做个性化推荐和精准化服务。

在获取头条用户分享的图像、文字及用户标签的基础上,通过使用AI里深度学习的方法利用图像、文字及用户标签数据来表达用户兴趣特征。基于这三类特征组合,通过计算用户之间的余弦相似度来挖掘与目标用户兴趣最相近的若干个候选用户。

传统推荐系统原理:

推荐系统最早是由Resnick和Varian于1997年提出的,通过利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买哪些商品,模拟销售人员协助客户完成购买过程。

传统推荐系统仅考虑向用户推荐商品的相似度,或推荐相似商品的广告等方式解决用户的信息需求。这种推荐方式用户需从大量的相似商品,或推荐广告中,选择自认为较好的商品或服务。并且是一个非常漫长的过程,且对商品或服务存在一定的信任度。

从另外一个角度分析,传统推荐系统也只是考虑根据用户对某类商品或服务的点击及关注,向用户推荐相似商品的方式来解决用户的需求。

传统推荐系统弊端:

另外,传统推荐系统存在着冷启问题,如:用户行为数据和用户特征数据无法获取,如无法获取这两类数据,系统便无法对用户进行产品推荐。

社群化推荐系统的兴起:

随着社交网站的兴起,社会化推荐系统逐渐开始流行起来,用户购买产品的方式逐渐由传统的系统推荐转向好友(网友)推荐,更多的时候是基于同类兴趣群体,或好友推荐。因为用户类型较为近似的好友或网友,可能在性格爱好方面有着更多的相似性,如:教育或知识结构的相似性、性格的相似性、工作环境的相似性、生活环境的相似性等,都会在社交网站上找到兴趣圈或朋友圈。

社会化推荐系统的普及:

头条类网站伴随时间的发展,逐步演化成用户阅读新闻资讯内容中必不可缺少的工具。传统的推荐系统,从此由内容信息推荐逐渐演化为社会化关系网站用户兴趣信息推荐,内容或服务信息也正演化精神层次信息需求。

如:我们在头条上阅读某条文章然后推荐给我们一个流行的商品或服务,我们希望将购买信息分享到微头条里的每一个人,这也正是头条产品社交化的重要性。

头条将电商社交化:

传统的电商不再是靠单一的卖商品或服务而存在,更多的是演化到基于社交网络或微头条的商品或服务。淘宝上的商品销售也被证实有一部分来自于好友的推荐。

朋友圈或兴趣圈推荐在社交网站的演化过程中扮演着越来越重要的角色,社交网站推荐从最初的用户引流到新用户活跃度、再到用户兴趣圈的形成及发展到现在的网络社区构建及用户关系的演化,社交化推荐系统是帮助用户解决信息不对称较好的方法,也是用户对感兴趣信息获取的一种较好途径和过滤垃圾信息的一种重要手段。

同时,社交化推荐系统改善了传统推荐系统中用户之间的关注度和信任度问题。

头条用户推荐原理:

头条用AI算法给用户推荐内容和商务及服务,主要根据用户在头条上浏览、评价、关注、点赞收藏和发布的文本数据、标签数据和图像数据之间的语义关联来构建用户的兴趣表达,通过计算目标用户和候选用户之间的余弦相似度来为目标用户推荐相同或相似的好友,进而为用户推荐适合用户的内容和服务。

头条综合推荐系统:

社会化推荐系统有如下5种类型:

1. 基于内容的推荐

系统关键技术根据用户已知的偏好、兴趣等属性或商品内容属性相匹配,为用户推荐好友或感兴趣商品,该推荐技术已经用运用于很多领域。

2. 协同过滤推荐

协同过滤推荐技术主要通过系统识别拥有相同或相似兴趣和偏好的用户,并为用户进行推荐。

3. 基于人口统计的推荐

一般是将用户按其个人属性(如:性别,年龄,教育背景,居住地,语言等)进行分类,将以上结果做为推荐的基础,对用户进行兴趣匹配及广告推荐。

4. 基于领域知识的推荐

一般是基于某个领域的图推论或是本体构建来对用户的需求或兴趣偏好进行匹配。

5. 混合推荐

将上述的各种推荐系统利用技术手段组合起来,充分发挥各推荐系统的优点,规避其缺点。在一定程度上提高了推荐效果自从推荐系统问世,就运用到各种领域——如:用户、书籍、购物、新闻、美食等;

例如:头条通过利用基于内容的推荐技术设计了一个购物推荐系统,采用词袋模型构建用户的兴趣偏好,根据用户对商品的历史购买或浏览行为信息,建立用户的特征向量,然后根据用户的特征向量和商品的内容的匹配程度为用户推荐新的商品。

6. 头条用AI技术做好友推荐系统

好友推荐的目的是:让用户更便捷的找到熟悉或兴趣相似的好友,使得用户的社交网络结构也更加真实可信。

用户找到好友的途径主要通过好友发布的各种信息,如:评论信息、用户标签、图像等。

目前,头条社交网络好友推荐用到了文本或图像信息:

通过对用户微头条、社交关系和地理位置三类数据进行融合来为用户做好友推荐;

运用微头条的标签与社会标注系统中的标签区别,通过利用向量空间模型使头条中用户产生的标签向量描述用户兴趣,然后将头条用户的兴趣发现问题看做是对用户进行标签的推荐,例如用TagRank方法,通过计算标签的重要度对标签重新 排序 实现对头条用户的兴趣推荐。

还运用了一种基于人脸图像的好友推荐系统,该图像推荐系统根据用户选择比较感兴趣或关注的人脸图像对用户进行好友推荐,这种基于好友的推荐系统主要是提取人脸颜色特征、结构特征和纹理特征来建立用户的外貌偏好对用户进行了好友推荐。

7. 用户兴趣组合推荐产品架构

用户推荐流程如下图:

今日头条:AI助力用户推荐 (上)

今日头条已经充分利用用户发布的图像、文章和用户标签数据等信息,找到了较为有效的用户兴趣表示方法。换言之,用户兴趣识别结果是基于图像、文章和用户标签融合的。

因此,首要任务是获取头条用户发布的图像、文章及用户兴趣标签数据,并对这些数据进行预处理;然后,提取图像语义特征、文章语义特征和用户标签特征,并通过以上三种特征的组合,得到多模态的用户兴趣表达;最后,通过计算不同用户之间兴趣表达的余弦相似度,选择最相似的Top-N个用户推荐给目标用户。

用户兴趣推荐表示和推荐方法:

用户兴趣推荐是为今日头条中的某个用户u∈ U 推荐与其兴趣相似的用户集合U’⊆ U 。

本文笔者LineLian将用户兴趣推荐转化为一个用户兴趣表示问题——即首先将任意用户u∈ U 转化为兴趣空间中的高维特征向量 v ,然后在高维特征空间中根据兴趣向量的余弦距离获得与用户 u 的兴趣特征向量最接近的 k 个特征向量,这些特征向量对应的用户则为推荐用户集合U’。

基于余弦相似度的用户兴趣推荐主要有两个核心步骤:

  1. 构建特征空间;
  2. 在特征空间中计算用户兴趣特征向量的相似度。

以下分别对这两个步骤进行详细说明:

(1) 构建特征空间本质上是寻找某个特征映射函数 f ,使得该函数能够将用户 u 映射为高维兴趣特征空间中的点v ——即 f ( u)→v ,v 也可以称为用户 u 在兴趣特征空间中的特征向量。

考虑到今日头条中存在三种不同模态的信息能够表征用户兴趣——即头条图像、文章和用户标签,因此得出一个头条基于多模数据的用户兴趣表征方法。

记用户 u=[Iimg, Itext, Itag] ,其中 Iimg、Itext、Itag分别对应图像、文章和用户标签三种信息。

  • 对于图像信息 Iimg,LineLian在ImageNet数据集上预训练好的ResNet模型提取图像中包含的语义作为图像特征向量——即 vimg=fResNet(Iimg) ;
  • 对于文本信息 Itext,LineLian利用在百度百科上预训练好的Word2Vec模型,通过计算文章中的词向量平均值作为文本特征向量——即 vtext=Avg(fWord2Vec( I)text) ;
  • 对于用户标签信息 Itag,可以利用向量空间模型将标签信息表示为特征向量,即 vtag=fVSM(Itag) 。

最终,用户的兴趣特征向量可以表示为多模向量的组合:

v=fResNet+Word2Vec+VSM( I)img, Itext, Itag=[vimg, vtext, vtag]

(2) 在特征空间中,计算用户兴趣特征向量相似度,实际上就是:选择合适的数学计算方法估计特征向量之间的相似度。可以通过计算目标用户与候选用户集多模兴趣,表达的余弦相似度表示用户间的相似程度,然后根据用户之间的相似度对候选用户集进行排序,最后将TopN个候选用户推荐给目标用户。

余弦相似度的计算方法如下:

sim( v)i,vj=cos( v)i,vj=vi∙ vj|v|i×|v|j=∑aN( v)ia∙ vja∑aN( v)ia2× ∑aN( v)ja2

为了更加精细的研究各个模态特征权重对整个推荐方法的贡献,可以对各个模态表达的相似度进行加权如公式如下:

coefficient=∑i∈ Csim(i)×ratio(i)

其中,coefficient为推荐系数,C={文章,标签,图像},sim(i)分别表示用户之间的文本、标签和图像相似度,ration(i)分别表示用户之间的文本、标签和图像相似度综合推荐时所占的比重。可以利用网格搜索的方法来探究最佳的权重 ratioi,其中 ratioi∈ [0,1] ,网格搜索的步长为0.1。

总结:

作为智能数据推荐,或者AI产品经理,在今日头条用户关系推荐系统中要明白:

  1. 推荐系统的历史成因。
  2. 推荐模型算法是包含多种其中有Bow /Word2vec/Nesnet等。
  3. 数据包含文本、图像、标签、社交网络数据、微数据等是是一种粮食来支撑AI神经网络的搭建和运算。
  4. AI产品经理在今日头条AI助力用户推荐上篇中明白产品做得是协调好数据、配合算法建模求解、优化。

#专栏作家#

连诗路,公众号:LineLian。人人都是产品经理专栏作家,《产品进化论:AI+时代产品经理的思维方法》一书作者,前阿里产品专家,希望与创业者多多交流。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Programming in Haskell

Programming in Haskell

Graham Hutton / Cambridge University Press / 2007-1-18 / GBP 34.99

Haskell is one of the leading languages for teaching functional programming, enabling students to write simpler and cleaner code, and to learn how to structure and reason about programs. This introduc......一起来看看 《Programming in Haskell》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具