个性化推荐的业务分析与模型选择

栏目: 编程工具 · 发布时间: 6年前

内容简介:我们在着手准备推荐业务之前,首先需要对其现有业务有一定的理解。以短视频推荐案例为例,我们通过神策分析对这个短视频产品的业务数据做了一些简单的分析,用于指导我们后续的策略研发。这些分析指标包括活跃用户量、视频量、视频平均播放次数、视频平均观看时长等。从这个分析中,我们得到了一个初步的结论,对比每日众多的活跃用户量,相当比例的视频的播放次数非常有限,为长尾冷门视频。因此,在进行个性化推荐时,我们会尝试激活其中的高质量视频,同时也会挖掘热门视频,吸引用户观看产生更多的行为,以便后续业务迭代升级。与此同时,在这个

在分别介绍完系统架构和数据流之后,本节我们将针对具体的业务分析与模型进行相应的介绍。

我们在着手准备推荐业务之前,首先需要对其现有业务有一定的理解。以短视频推荐案例为例,我们通过神策分析对这个短视频产品的业务数据做了一些简单的分析,用于指导我们后续的策略研发。

这些分析指标包括活跃用户量、视频量、视频平均播放次数、视频平均观看时长等。从这个分析中,我们得到了一个初步的结论,对比每日众多的活跃用户量,相当比例的视频的播放次数非常有限,为长尾冷门视频。

因此,在进行个性化推荐时,我们会尝试激活其中的高质量视频,同时也会挖掘热门视频,吸引用户观看产生更多的行为,以便后续业务迭代升级。与此同时,在这个分析过程中,我们也确定了此次个性化推荐的评价体系,也是日后迭代优化的目标,即从视频平均观看时长、用户留存、视频播放 CTR(Click ˛rough Rate,点击通过率) 这几个指标来衡量。

其次,我们进一步来分析数据的特点,以便协助进行模型的选择。对这个短视频推荐案例来说,它的用户行为数据量级足够大, 每天会产生巨量的播放、点击行为;可推荐视频总量相比用户行为数据要小一个量级,并且已有一套自己的视频分类体系。

基于上面的数据特点,我们决定以用户行为推荐为主,基于内容的推荐为辅。选择在深宽模型模式上采用HMF模型来生成候选集合,再通过主题模型对推荐结果进行多样性优化(打散),最终辅以部分人工策略召回来构成我们的召回候选集合。

下面,我们对这三类模型做一个简单的介绍。

1.HMF 混合矩阵分解,即使用隐式反馈来做矩阵分解。隐式反馈多为用户正常使用产品所产生的行为,并非为了表达兴趣、态度,例如点击、播放、浏览详情页等。显式反馈则相反,例如评分、赞同/反对。

我们采用隐式反馈,一来数据比显式反馈更加稠密,二来隐式反馈更代表用户的真实想法,三来它更容易激活一些小众的 Item,而这恰恰呼应了我们最初定下的优化指标。在该场景下,我们学习一段用户观看视频的序列,预测对下一视频喜欢的概率。

2.深宽模型,主要是相对传统的机器学习模型而言的,如图 1 所示。传统的机器学习模型多为宽模型,即广义线性模型与特征海洋战术的结合。现在较为火热的深度神经网络为深模型。深宽模型即两者的结合,深模型和宽模型以及最终融合的权重放在一个模型训练流程中,不存在分阶段训练,直接对目标函数负责,端到端更加简洁。非常适合高维稀疏特征的推荐场景,发扬了稀疏特征的可解释性加上深度模型的泛化性能,双剑合璧。

个性化推荐的业务分析与模型选择

图 1 宽模型与深模型(图片来源于网络)

3.主题模型的采用,主要是因为隐式反馈不能解决标题党的问题。

尤其在短视频行业,高亮的标题与“三俗”的图片都会吸引用户点击,对平台的长期价值是有损的。我们采用主题模型一方面可以改善推荐结果中的多样性要求,另一方面也可识别标题党对其降权。

实验与迭代

除了基于数据的情况选择合适的模型以外,实验与迭代对于一个个性化推荐系统也是至关重要的。 秉承数据驱动的理念,我们在每一次策略上线时都会创建一组 A/B 测试,借助我们的实验分流系统,根据行为所持有的实验编号即可在神策分析平台中实时追踪、对比上文提到的几个关键的迭代和优化指标,并一次跟踪实验效果。根据实验的最终效果,最终以逐步开大流量的方式来最终完成线上策略的迭代。

更多数据分析干货和案例,可以关注“神策数据”公众号了解~ 个性化推荐的业务分析与模型选择


以上所述就是小编给大家介绍的《个性化推荐的业务分析与模型选择》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

计算理论导引

计算理论导引

[美]Michael Sipser / 张立昂、王捍贫、黄雄 / 机械工业出版社 / 2000-2 / 30.00元

本书由计算理论领域的知名权威Michael Sipser撰写。他以独特的视角,综合地描述了计算机科学理论,并以清新的笔触、生动的语言给出了宽泛的数学理论,而并非拘泥于某些低层次的技术细节。在证明之前,均有“证明思路”,帮助读者理解数学形式下蕴涵的概念。同样,对于算法描述,均以直观的文字,而非伪代码给出,从而将注意力集中于算法本身,而不是某些模型。本书的内容包括三个部分:自动机与语言、可计算性理论和一起来看看 《计算理论导引》 这本书的介绍吧!

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具