总篇87篇 2020年 第11篇
1. 汽车之家推荐系统
1 .1 概述
汽车之家推荐系统上线已有近5年历史,主要给用户推荐个性化的汽车之家资源。推荐系统的上线是汽车之家APP生态内容以分类体系分发转变为个性化推荐的重要里程碑。汽车之家推荐的资源主要包括专业编辑、汽车大V、论坛用户生产的文章、视频、图片,以及车系物品等,总量上亿。
推荐的目标是给用户推荐他喜爱的内容,做好推荐可以拆解为三个子目标:
-
一是对用户的理解
-
二是对资源的刻画
-
三是用户和资源的最佳匹配
再对上面三个目标进行拆解,用户理解包含用户属性、行为收集及行为的表示,资源的刻画包括自身的属性及外部赋给资源的特征,用户和资源的匹配有非常多的方法或模型,是推荐系统的核心工作,追求更好更优的匹配,是推荐系统不断演进的动力所在。
匹配又可以分为两部分,召回和排序,召回是尽可能多的找到用户喜欢的资源,排序是对找到的资源再做一次优选,召回和排序又可以进一步细分。
1 . 2 架构
推荐系统要从海量的资源库里,快速找到用户潜在感兴趣的资源。主要有四个环节,第一,收集资源,第二,从所有资源中找到用户感兴趣的资源,第三,对用户感兴趣的资源根据用户喜好程度进行排序,第四,输出给用户最感兴趣的n个资源。
基于以上四个环节对推荐系统架构进行设计,一般由如下模块组成。
其中:
资源池: 存储各种类型的海量资源,一般由数据库存储,如 mysql 、hive、 redis 等。
标签生成: 标签是对资源更多维度的结构化刻画。比如:分类标签、关键词、质量分等。
索引: 对资源的各类标签、关键词建立倒排索引,及相似向量检索引擎等。
过滤: 对用户的曝光历史、负反馈等进行过滤。
召回: 使用用户画像标签或用户embedding到索引和向量库中获取相关的候选资源。
用户画像: 用户属性及根据用户的历史行为给用户打的标签。
排序: 通过模型对召回的每个候选资源进行预测打分。
特征/模型: 排序依赖的用户特征、资源特征及模型。
运营: 业务策略,包括提权、曝光占比控制、打散等业务策略。
输出: 将排序及运营后的topN个资源打包返回给客户端。
2 . 排序模型
2 .1 模型介绍
汽车之家首页推荐排序模型主要经历了LR、XGBoost、FM、DeepFM、DeepFM Online Learning这几个主要的演进过程,在这个过程中还实验了如Wide&Deep、DCN、LSTM、GRU等模型。
LR模型是CTR预估领域早期最成功的模型,大多早期的工业推荐排序系统采取LR这种“线性模型+人工特征组合引入非线性”的模式。LR模型具有训练快、上线快、可解释性强、容易上规模等优点,目前仍然有不少实际系统采取这种模式。同时LR模型也是之家推荐排序系统初期的验证模型和中后期的baseline模型。
Xgboost模型在使用和LR相同的特征,上线后就取得了比较明显的效果,之后又增加了user和item的实时特征,实验组CTR得到了进一步的提升,总体上相对提升6%。在和对照组持续观察了3周后,XGBoost的提升效果得到了验证,替换了LR成为线上的全量模型和baseline模型。之后还尝试了XGBoost+LR,效果相比XGBoost没有明显提升。
FM简洁优雅地实现了二阶特征组合。实现特征组合比较容易想到的是在LR的基础上加入二阶特征组合即可,即任意两个特征进行组合,将组合出的特征看作新特征,加到LR模型中。组合特征的权重在训练阶段学习获得。但这样对组合特征建模,泛化能力比较弱,尤其是在大规模稀疏特征存在的场景下。FM模型也直接引入任意两个特征的二阶特征组合,但对于每个特征,学习一个大小为k的一维向量,两个特征Xi和Xj的特征组合的权重值,通过特征对应的向量Vi和Vj的内积
Wide&Deep是推荐领域取得较大成功的最早期深度模型,由Google于2016年提出。Wide&Deep模型包括Wide部分和Deep部分,Wide部分为LR,输入为one-hot后的离散型特征和等频分桶后的连续性特征,这部分可以对样本中特征与目标较为明显的关联进行记忆学习;Deep部分为MLP,输入为Embedding后的离散型特征和归一化后的连续型特征,可以泛化学习到样本中多个特征之间与目标看不到的潜在关联。使用Wide&Deep的另一个优势在于Wide部分的存在,可以沿用之前浅层学习的成果,尤其是特征工程部分。Wide&Deep上线后CTR相对提升3%,比同期上线的DeepFM低0.5%,线上主要使用了DeepFM模型。
DeepFM将Wide&Deep的wide部分LR 替换成FM来避免人工特征工程。DeepFM相比 Wide&Deep模型更能捕捉低阶特征信息。同时,Wide&Deep部分的embedding层需要针对deep部分单独设计,而在DeepFM中,FM和deep部分共享embedding层,FM 训练得到的参数既作为 wide 部分的输出,也作为 MLP 部分的输入。DeepFM支持end-end训练,Embedding 和网络权重联合训练,无需预训练和单独训练。DeepFM上线后CTR相对提升3.49%,略好于同期上线的Wide&Deep。在效果得到验证后推全了DeepFM模型,使其成为线上的全量模型和baseline模型。线上效果的提升带来的是推荐排序模型预测耗时的增加,为了保证不超过最大平响,在不明显提高模型loss的前提下,实验优化Deep部分的参数,包括减少Embedding的维度和隐藏层的神经元个数与层数等。通过部署模型上线后观察效果,模型预测的耗时随之减少,而且CTR也没有明显波动,依然明显高于对照组,说明深度学习的泛化能力较强,即便降低模型的神经网络配置,依然能较好地拟合样本。
与Wide&Deep和DeepFM类似,DCN将Wide部分升级为Cross网络,Cross网络一方面通过显式的高阶特征交叉,另一方面通过层与层之间拟合残差,能够更深入地挖掘出非线性特征组合与目标的关系,更快地达到稳定的拟合状态。在和DeepFM采用相同特征的情况下,实验CTR也和DeepFM持平。根据线上的迭代经验和业务特点,尝试优化了DCN的模型结构。在DCN原始的Embedding and Stacking层中,离散型特征在经过Embedding处理后,与连续型特征直接拼接在一起,统一输入进后面的网络,这样带来的不足是:虽然网络可以用显性和隐性的方式学习特征间的有效交叉,但缺少单个特征内部信息的挖掘,将这部分压力转移到了特征工程,从而增加了人工成本。基于充分利用每个特征,通过排序模型自适应学习到更多信息的考虑,尝试对所有特征分别进行扩展。在DCN的Embedding and Stacking层和网络层之间实验引入特征扩展层,将每个特征从原始的1维扩展到n维,与Embedding只对离散型特征处理不同,维度扩展也会处理连续性特征。扩展后的特征在伴随着维度增加的同时,会将更多自身信息输入到网络层参与高阶计算,与只使用原始特征相比,模型可以更深入利用已有特征,节约了特征工程的人工成本。通过离线实验,在采用相同特征的情况下,相较DCN,基于特征扩展的DCN上线后实验CTR相对提升1%。
在上述模型迭代的同时,还实验了LSTM、GRU等模型,LSTM和GRU都是基于序列的next click模型,模型的结构很简单,对于一个Session中的点击序列X=[X1,X2,X3...Xn-1,Xn],依次将X1、X2,...,Xn-1输入到模型中,预测下一个被点击的是哪一个Item。首先,序列中的每一个物品Xt被转换为one-hot,随后转换成其对应的embedding,经过N层隐含单元后,再经过一个全联接层得到下一次每个物品被点击的概率。这些模型的CTR都暂未明显好的DeepFM,所以都还在实验阶段,没有成为线上主要模型。
在DeepFM和其他深度模型的实践中,比较容易犯的错误是不考虑特征组成和样本数量,直接暴力增加模型复杂度,从而导致训练时间骤增、模型文件变大和线上的预测时间更久,最终引起推荐系统服务超时。如果特征数量少、特征工程完善和样本选取合理,使用简单的深度学习模型反而能够达到更好的效果。
2 .1 在线学习
在线学习利用实时收集的用户反馈,实时更新模型参数进行预测,实时反馈用户行为变化带来的影响。在线学习相对离线学习可以理解为数据集无限大,时间序列无限长,利用样本数据流逐条更新模型,在线学习是DeepFM上线后在模型更新方面做的优化。之前的模型更新从一周到一天,为了模型能更快的学习到用户的实时行为,我们将模型的更新周期做到了分钟级。
这里主要有两部分工作,一是Label及特征的实时获取,二是模型的实时更新。
对于Label及特征的实时获取是通过每次请求的唯一标识id使用服务端dump的特征和客户端的Label(曝光、点击)进行join生成,这里要注意的是Label必须和当次请求的特征join,如果特征数据在Label之后有更新,则会产生特征穿越的问题。
模型的实时更新是将实时获取的样本累积到一个batch后,就进行迭代更新,更新后的模型每隔10分钟往线上推一次。累计10分钟在保证捕获用户实时行为实效性的前提下,既可以降低工程实现难度,又可以降低样本的抖动影响,对样本不均衡的情况可以采取采样策略进行处理。
2 . 2 排序服务
排序服务是以API的形式提供,其中:
输入:
-
Deviceid:用户唯一标识,在服务内部通过此id获取用户的属性及行为特征。
-
Itemid:这是对用户待排序的资源id,在服务内部会获取到这些资源属性、热度、标签等信息。
-
Pvid:当次请求的唯一标识,用于关联客户端和服务端的日志。
-
Model-name:模型名称,指定选用哪个模型进行排序,排序服务提供了多个模型供选择。
-
Model-version:模型版本,和Model-name搭配使用,指定同一个模型的哪个版本,这个参数主要用来进行模型迭代优化。
-
Debug:此参数用来输出排序过程中的一些中间结果。
输出: Itemid及其打分。
排序服务中的多个模型有不同的更新策略,更新同期可配置。排序服务还依赖于特征服务获取用户和资源的特征,对应到不同模型还有不同的特征工程处理。
2.3 模型更新
实验的小流量排序模型经过离线验证,线上可以定时直接热更新。线上的全量排序模型更新除了离线验证外,还要在推全之前有一个预上线实验验证,确保在预上线实验组上CTR等数据没问题,再将模型全部更新。
2.4 AB实验
在机器学习领域中,AB 实验是验证模型最终效果的主要手段。进行AB测试的主要手段是进行用户分桶,即将用户分成实验组和对照组,对实验组的用户施以新模型,对照组的用户施以旧模型。在分桶的过程中,要注意样本的独立性和采样方式的无偏性,确保同一个用户每次只能分到同一个桶中,在分桶过程中选取DeviceId必须是完全随机的,这样才能保证桶中的样本是无偏的。实验组和对照组的划分必须是在相同的约束条件下随机选取DeviceId。如下图a、b、c的划分都不正确,其中a中实际划分的用户超出了实验约束的用户群,b中实验组用户正确,但是把剩余的所有用户作为对照组是不对的,c中实验用户正确,对照组用户有所扩大也是不对的,只有d是正确的。
线上的AB主要有三部分,一是实验及其分桶的配置,二是分桶对应的代码逻辑,三是实验及分桶的效果数据。实验之间的流量是正交的,每个实验中多个分桶的流量是互斥的。如我们的排序模型设置了一个实验,多个分桶,有2%、5%、10%流量的三个对照组,模型上线时从2%开始逐步扩量进行效果对比验证。
2 . 5 模型训练
推荐排序模型的训练主要基于之家机器学习平台AutoPAI。汽车之家AutoPAI是一个支持可视化拖曳组件建模,支持上百种机器学习算法组件,支持多个深度学习框架,和hadoop、spark打通,支持分布式GPU训练深度学习模型的平台,并且支持在线开发、自动部署等功能。
我们的简单模型如LR、XGBoost可以直接在界面上拖动数据源、特征处理组件、模型组件、验证组件进行训练并保存模型,之后进行一键部署线上服务。深度模型支持在线开发、调试,之后将调试好的代码通过深度学习组件进行提交,选择GPU卡数进行训练,训练完成后可一键部署服务。
2 .6 可视化 Debug
对模型或策略单次请求效果的验证,一般上线后通过白名单进行验证,但这还是要进行代码或配置的上线,上线一方面是有风险,另一方面一般上线是多个实验多个功能一起上线,即使一个实验添加了白名单也有可能受到其他实验的影响。对此,我们基于代码debug的思想,把调试放在程序正式发布前,我们做了推荐debug系统,在实验上线前就可以通过debug系统进行效果验证及中间环节验证。
我们的debug平台最主要的推荐效果验证输入有两部,一是推荐接口,二是实验配置。通过更改这两部的参数,就可以模拟线上真实返回渲染,并可以输出这次请求整个链路的中间结果。Debug平台还支持对索引、召回、排序等子模块的直接验证,可以查询资源特征、用户画像,用户曝光点击行为等。Debug平台的上线极大的提高了我们的上线效率。
3 . 特征及训练样本
3 . 1 特征介绍
模型的输入一般包括:用户画像特征、item特征,上下文特征,交叉特征、位置特征和序列item特征,其中:
用户画像特征有: 用户自身属性,如性别、年龄、职业、地域等;用户行为,如不同时间窗口的浏览时长、点击、搜索、发贴、收藏、点赞等行为;基于行为所产生的兴趣偏好,如车系、标签偏好等;基于行为的衍生统计指标,如用户ctr、活跃度等。
Item特征有: item自身属性,如标题、正文字数、图片个数等;基于item挖掘的特征,如内容分类、关键词、情感、内容专业度、内容丰富度、作者影响力等;item被用户赋予的行为,如uv、pv、ctr、收藏、点赞、回复等。
交叉特征有: item标签与用户标签的匹配度。
3 . 2 特征处理
直接使用原始特征不易于模型拟合,所以传入模型后还需要进一步处理,具体包括:异常值处理、归一化和等频分桶。
异常值处理:
训练样本中的特征一般都存在异常值,对于离散型特征,可以将其单独分配到one-hot的一个位置,不会存在全为0的情况,但对于连续型特征,通常会对其赋默认值,如果为0则该特征不会参与到结果计算,如果为平均值则可能不符合各个特征的物理含义。为了得到合理的默认值,排序模型通过在特征处理阶段,对每个连续型特征引入不为0的weight和bias,默认值的计算方式为:,weight和bias通过模型训练学到,当出现异常值时,特征值默认等于bias。通过离线实验,测试集的loss有明显下降,上线后的CTR也优于默认取0值或取平均值。
归一化:
连续型特征的值分布一般不统一,例如曝光量和CTR,曝光量取值都大于1,且最大值可能会是几百万,而CTR的取值区间为0到1,如果直接输入到排序模型,分布不均的统计特征会导致训练波动,不但影响收敛速度,而且最终可能会无法拟合。常规的归一化方法包括:min-max、log和standard等,通过离线实验观察测试集的loss,其中min-max的效果最好。
等频分桶:
对于连续型特征,当线上的特征值出现异常变化的时候,可能会存在泛化性不好或者鲁棒性不足的问题。为此引入了等频分桶,即按样本特征的分布频率,为每个特征规定好多个取值分界线,根据原始特征值分到不同的桶中,再根据桶的编号进行one-hot处理。深度模型的nn部分使用连续特征时因为长尾分布对最大值做了限制,后来实验nn部分使用离散特征效果更好,也使用了离散特征。
3 . 3 特征表达
我们的排序模型不仅引入了大规模的稀疏特征,而且实现了多种形式的向量表达。
如基于item内容分类的Bert embedding,基于item图像和视频的embedding,基于行为的Graph embedding、LSTM embedding等
3 . 4 特征生产
用户和资源的特征做到了离线加实时,离线特征存储了用户和资源最近三个月的行为,实时特征做到了秒级别的更新。特征生产系统架构如下:
3 . 5 特征服务
特征服务是支持排序服务的基础服务,主要输出用户和资源的离线及实时特征。
3 . 6 训练样本生成
排序服务在用户每次请求时调用特征服务,获取实时和历史特征,输入模型,并输入到一个dump队列再与客户端的曝光点击进行join生成模型实时训练更新的样本,流程如上图。
4 . 未来计划的优化方向
模型目标: 后续的优化目标不仅仅限于CTR,而是综合点击、互动、时长等多个目标同时优化,这是未来目标优化的趋势。多目标模型的实现既可以每个目标独立建模优化然后进行融合,也可以通过共享参数的多目标网络实现。
模型表达能力: 也就是网络结构的升级,如使用Transformer进行更好的特征抽取,自动化特征工程,AutoML自动设计更好的网络模型,和推荐场景很吻合的强化学习等
特征扩充及信息融合: 主要有用户长短期兴趣更精准的embedding表达,文本、图片、视频、互动行为等多模态信息的融合表达等。
汽车之家的推荐系统紧随前沿持术,在支持内部多个推荐场景的同时,对外也有了一定的输出。未来我们期望汽车之家的推荐系统不只是前沿技术的应用者,更是推动者和创新者。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 汽车之家推荐系统排序算法迭代之路
- 汽车之家推荐系统排序算法迭代之路
- 人脸算法拼杀中,深醒科技的自我迭代
- 迭代器萃取与反向迭代器
- 浅谈python可迭代对象,迭代器
- 可迭代对象,迭代器(对象),生成器(对象)
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Impractical Python Projects
Lee Vaughan / No Starch Press / 2018-11 / USD 29.95
Impractical Python Projects picks up where the complete beginner books leave off, expanding on existing concepts and introducing new tools that you’ll use every day. And to keep things interesting, ea......一起来看看 《Impractical Python Projects》 这本书的介绍吧!