浅谈 CTR 预估模型发展史

栏目: IT技术 · 发布时间: 5年前

内容简介：:mag:

浅谈 CTR 预估模型发展史

©PaperWeekly 原创 · 作者｜Zhang

学校｜上海交通大学硕士生

研究方向｜深度学习、自然语言处理

浅谈 CTR 预估模型发展史

背景介绍

Click Through Rate (CTR) Prediction 是一项非常重要的工业任务，例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价，有的推荐系统则基于 CTR 进行排序。

CTR 预测即给定一个用户/物品（广告）对，预测用户点击该物品的概率。其中输入的特征往往包括连续特征（年龄）和枚举特征（性别、地区），即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征（如性别）和多取值的特征（如购买记录）。

一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征，之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。

浅谈 CTR 预估模型发展史

模型发展史

传统的模型有：LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。

2.1 2016年

最简单的基于 deep learning 的模型设计，例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入，在其上叠加多层的神经网络直接预测 CTR。

该文提出 FM supported 和 sampling based NN 两种具体实现方式，分别通过 FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值，以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数；最后通过 fine-tune 的方式训练最终模型。

不同于上述模型完全依赖神经网络（如果不考虑预训练的作用）来学习不同 feature 之间的交互关系，另一类模型既显式地建模 feature 之间的低阶交互关系，又同时借助神经网络来建模高阶交互关系。

比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征，最后将原始的一阶和交互的二阶特征相加输入神经网络。

Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature，通过 linear model 进行预测。

deep model 则直接从一阶 feature 出发叠加神经网络；最终将 Wide&Deep 两个模型 joint learning 训练。

2.2 2017年

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN，其中 DNN 的输入共享使用了 FM 中的 latent vector，最终结合两部分的 feature 进行最终预测。

Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN，最终合并两个分支的 feature 进行最终预测。

其中 cross network 显式地建模了高阶（对应 cross network 的层数，不同于其他模型设计中只有二阶的显式交互设计）的 feature 交互。

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上，通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和：

其中 attention score根据的 Hadamard product 来计算。

Neural Factorization Machines for Sparse Predictive Analytics (NFM) 中首次完全融合了 FM 和 DNN，将 FM 中原有的 latent vector 内积项：

浅谈 CTR 预估模型发展史

替换为通过 Bi-Interaction Layer（如下图）+NN 建模的 feature 交互特征。

浅谈 CTR 预估模型发展史

2.3 2018年

FwFM: Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising (FwFM) 中同样考虑了不同二阶交互特征对于最终预测的贡献度不同，因此在 FM 的二阶交互项中加入了权重系数，相比 FFM 减少了大量参数：

浅谈 CTR 预估模型发展史

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems (xDeepFM) 中同样显式地建模了高阶的 feature 交互，进一步改进了 Cross Network，提出 Compressed Interaction Network，模型表达能力更强。

并且将 Cross Network 中 bit-wise 的交互方式（意味着同一个 feature embedding 的不同 bit 之间也会进行交互）改为 vector-wise 的交互方式。模型整体结构和 DeepFM 相同，将 FM 的部分替换为 CIN。

Deep Interest Network for Click-Through Rate Prediction (DIN) 在对 user behavior 的 feature（用户历史行为）处理中，区别于传统的 average pooling 或 concatenation 的方式，考虑到了每个 behavior 的参考价值与具体的待预测目标有关。

因此通过 attention 的方式进行了加权求和来建模 user interest：

浅谈 CTR 预估模型发展史

Deep Interest Evolution Network for Click-Through Rate Prediction (DIEN) 进一步关注了 user interest 随时间变化的特点。模型主要包括一个 interest extractor layer、一个 interest evolving layer，都是基于 GRU 的结构，在 user behavior 的时间序列上学习。

其中 interest evolving layer 的输入为 interest extractor layer 中对应时间步的隐藏层，并且由和待预测物体的特征计算得出 attention 来作为 update gate 的权重。

2.4 2019年

Deep Session Interest Network for Click-Through Rate Prediction (DSIN) 中则关注到用户的历史行为、用户兴趣的时间序列可分为不同的 session，session 内的行为比较 homogeneous，而不同 session 间则更heterogeneous。

因此对 user behavior 的建模包括了 session division、session interest extractor (multi-head self-attention)、session interest interaction (Bi-LSTM)、session interest activation (attention)。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (FiBiNET) 中提出了基于 Squeeze-and-Excitation 的 feature importance 计算方法以及 bilinear 的 feature 交互方法。

其中关于 bilinear interaction，新提出了杂交 Hadamard product 和 inner Product 的表达方式，例如：

浅谈 CTR 预估模型发展史

最终得出的二阶交互特征替换 FM 模型中的二阶交互项。

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (AutoInt) 中用 multi-head self attention network with residual connection 来建模 feature 交互。

2.5 2020年

FLEN: Leveraging Field for Scalable CTR Prediction (FLEN) 中提出了一种参数少、计算量小、适合工业化应用的模型，其中 feature 交互的部分结合了 intra/inter feature 的交互。最终用 field-wise bi-interaction module 得到的二阶特征 +DNN 学到的特征进行预测。

A Sparse Deep Factorization Machine for Efficient CTR prediction (Sparse DeepFwFM) 在 DeepFwFM 的基础上进行了 structural pruning，大大减少模型参数以符合线上运行的需求，并且使模型的 ensemble 成为可能。

浅谈 CTR 预估模型发展史

研究方向

feature interaction 的方式

只包含低阶（二阶）的特征交互，比如 FM、AFM、FFM、FwFM。
完全依赖深度学习来建模高阶的交互特征，比如 DNN、AutoInt。
结合显式的低阶特征交互建模和基于深度学习的高阶特征建模，比如 PNN、Wide&Deep、DeepFM、Deep&Cross、NFM、xDeepFM、FiBiNET、FLEN。其中 Deep&Cross 和 xDeepFM 显式建模了高于二阶的交互特征。

依据用户的历史行为以及待估计的对象研究用户的兴趣，比如 DIN、DIEN、DSIN。

简化模型、工业应用，比如 FwFM、FLEN、Sparse DeepFwFM。

其他还有推荐系统中基于 CTR 的模型，例如 RippleNet [7]，利用了用户和物品由点击历史构成的 graph 以及 knowledge graph，将用户兴趣在合并的 graph 上“传播”，类似于基于物体的协同过滤方法。

浅谈 CTR 预估模型发展史

效果比较

主要根据 AUC 和 logloss 来比较。在 Criteo 数据集上测试的模型较多，根据 paper 各自汇报的结果，在 Criteo 上表现最好的是 Sparse DeepFwFM，其次是 xDeepFM、DeepFM。根据 FLEN 自己在 Avazu 数据集上汇报的结果，FLEN 的优于 xDeepFM。

参考文献

[1] Richardson, Matthew ; Dominowska, Ewa ; Ragno, Robert. Predicting clicks: estimating the click-through rate for new ads.

[2] Rendle, Steffen ; Gantner, Zeno ; Freudenthaler, Christoph ; Schmidt-Thieme, Lars. Fast context-aware recommendations with factorization machines.

[3] Mcmahan, H ; Holt, Gary ; Sculley, D ; Young, Michael ; Ebner, Dietmar ; Grady, Julian ; Nie, Lan ; Phillips, Todd ; Davydov, Eugene ; Golovin, Daniel ; Chikkerur, Sharat ; Liu, Dan ; Wattenberg, Martin ; Hrafnkelsson, Arnar ; Boulos, Tom ; Kubica, Jeremy. Ad click prediction: a view from the trenches.

[4] He, Xinran ; Pan, Junfeng ; Jin, Ou ; Xu, Tianbing ; Liu, Bo ; Xu, Tao ; Shi, Yanxin ; Atallah, Antoine ; Herbrich, Ralf ; Bowers, Stuart ; Candela, Joaquin. Practical Lessons from Predicting Clicks on Ads at Facebook.

[5] Juan, Yuchin ; Zhuang, Yong ; Chin, Wei-Sheng ; Lin, Chih-Jen. Field-aware Factorization Machines for CTR Prediction.

[6] Gai, Kun ; Zhu, Xiaoqiang ; Li, Han ; Liu, Kai ; Wang, Zhe. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction.

[7] Wang, Hongwei ; Zhang, Fuzheng ; Wang, Jialin ; Zhao, Miao ; Li, Wenjie ;Xie, Xing ; Guo, Minyi. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems.

浅谈 CTR 预估模型发展史