DeepCTR：易用可扩展的深度学习点击率预测算法库

栏目: 编程工具 · 发布时间: 6年前

内容简介：这个项目主要是对目前的一些基于深度学习的点击率预测算法进行了实现，如 PNN , WDL , DeepFM , MLR , DeepCross , AFM , NFM , DIN , DIEN , xDeepFM , NFFM , AutoInt 等，并且对外提供了一致的调用接口。关于每种算法的介绍这里就不细说了，大家可以看论文，看知乎，看博客，讲的都很清楚。这里简单从整体上介绍一下 DeepCTR 这个库。首先这个不是一个框架，它不具有学术创新意义，目前也没有解决什么复杂的工程问题。它面向的对象是那些对深

这个项目主要是对目前的一些基于深度学习的点击率预测算法进行了实现，如 PNN , WDL , DeepFM , MLR , DeepCross , AFM , NFM , DIN , DIEN , xDeepFM , NFFM , AutoInt 等，并且对外提供了一致的调用接口。关于每种算法的介绍这里就不细说了，大家可以看论文，看知乎，看博客，讲的都很清楚。

这里简单从整体上介绍一下 DeepCTR 这个库。首先这个不是一个框架，它不具有学术创新意义，目前也没有解决什么复杂的工程问题。它面向的对象是那些对深度学习以及 CTR 预测算法感兴趣的同学，可以利用这个库：

从一个统一视角来看待各个模型
快速地进行简单的对比实验
利用已有的组件快速构建新的模型

统一视角

DeepCTR 通过对现有的基于深度学习的点击率预测模型的结构进行抽象总结，在设计过程中采用模块化的思路，各个模块自身具有高复用性，各个模块之间互相独立。基于深度学习的点击率预测模型按模型内部组件的功能可以划分成以下 4 个模块：输入模块，嵌入模块，特征提取模块，预测输出模块。

DeepCTR：易用可扩展的深度学习点击率预测算法库

快速实验

DeepCTR：易用可扩展的深度学习点击率预测算法库

Criteo 数据集预览

下面是一个简单的用 DeepFM 模型在 criteo 数据集上训练的的例子。

 复制代码

importpandasaspd
from sklearn.preprocessingimportLabelEncoder, MinMaxScaler
from sklearn.model_selectionimporttrain_test_split
from sklearn.metricsimportlog_loss, roc_auc_score
from deepctr.modelsimportDeepFM
from deepctr.utilsimportSingleFeat
if__name__ =="__main__":

data= pd.read_csv('./criteo_sample.txt')

sparse_features = ['C'+ str(i)foriinrange(1,27)]
dense_features = ['I'+str(i)foriinrange(1,14)]

data[sparse_features] =data[sparse_features].fillna('-1', )
data[dense_features] =data[dense_features].fillna(0,)
target = ['label']
#1.Label Encodingforsparse features,anddosimple Transformationfordense features
forfeatinsparse_features:
lbe = LabelEncoder()
data[feat] = lbe.fit_transform(data[feat])
mms = MinMaxScaler(feature_range=(0,1))
data[dense_features] = mms.fit_transform(data[dense_features])
#2.count #unique featuresforeach sparse field,andrecord dense feature fieldname
sparse_feature_list = [SingleFeat(feat,data[feat].nunique())
forfeatinsparse_features]
dense_feature_list = [SingleFeat(feat,0)
forfeatindense_features]
#3.generate inputdataformodel
train, test = train_test_split(data, test_size=0.2)
train_model_input = [train[feat.name].valuesforfeatinsparse_feature_list] + \
[train[feat.name].valuesforfeatindense_feature_list]
test_model_input = [test[feat.name].valuesforfeatinsparse_feature_list] + \
[test[feat.name].valuesforfeatindense_feature_list]
#4.Define Model,train,predictandevaluate
model = DeepFM({"sparse": sparse_feature_list,
"dense": dense_feature_list}, final_activation='sigmoid')
model.compile("adam","binary_crossentropy",
metrics=['binary_crossentropy'], )
history = model.fit(train_model_input, train[target].values,
batch_size=256, epochs=10, verbose=2, validation_split=0.2, )
pred_ans = model.predict(test_model_input, batch_size=256)

print("test LogLoss", round(log_loss(test[target].values, pred_ans),4))
print("test AUC", round(roc_auc_score(test[target].values, pred_ans),4)))

快速构建新模型

所有的模型都是严格按照 4 个模块进行搭建的，输入和嵌入以及输出基本都是公用的，每个模型的差异之处主要在特征提取部分。

下面是 DeepFM 模型的特征提取核心代码，大家也可以利用这些已有的组件去构建自己想要的模型。

 复制代码

fm_input = Concatenate(axis=1)(embed_list)# 将输入拼接成 FM 层需要的 shape
deep_input = Flatten()(fm_input)# 将输入拼接成 Deep 网络需要的 shape
fm_out = FM()(fm_input)# 调用 FM 组件
deep_out = MLP(hidden_size, activation, l2_reg_deep, keep_prob,use_bn, seed)(deep_input)# 调用 Deep 网络组件
deep_logit = Dense(1, use_bias=False, activation=None)(deep_out)

如何使用呢！？

首先确保你的 python 版本 >=3.4 然后：

 复制代码

pipinstalldeepctr

就可以安装成功啦！剩下的我建议你先来项目仓库点个赞，然后再去看说明文档！

DeepCTR 项目地址：

https://github.com/shenweichen/DeepCTR

Welcome to DeepCTR’s documentation！

地址：

https://deepctr-doc.readthedocs.io/en/latest/

最后就是欢迎感兴趣的同学一起来维护建设和交流，无论是文档，还是开发，还是测试，都欢迎~

作者介绍：

沈伟臣，阿里巴巴算法工程师，硕士毕业于浙江大学计算机学院。对机器学习，强化学习技术及其在推荐系统领域内的应用具有浓厚兴趣。

本文来自沈伟臣在 DataFun 社区的演讲，由 DataFun 编辑整理。

以上所述就是小编给大家介绍的《DeepCTR：易用可扩展的深度学习点击率预测算法库》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

跨境电商——阿里巴巴速卖通宝典

速卖通大学编著 / 电子工业出版社 / 2015-1 / 69.00元

跨境电商作为中国电子商务发展的最新趋势，受到了全社会越来越多的重视，大量中国卖家借助阿里巴巴速卖通平台，将产品直接售卖到全球的消费者手中，通过这条短得不能再短的交易链，获得了丰厚的回报。但同时，跨境电商这一贸易形式，对卖家的综合素质要求比较高：卖家要对海外市场比较熟悉，对跨境物流有所把握，能够用外语进行产品介绍和客户交流，通过跨境结算拿到货款……诸如此类的门槛，让不少新卖家心生畏难，而所有......一起来看看《跨境电商——阿里巴巴速卖通宝典》这本书的介绍吧!

码农工具

DeepCTR：易用可扩展的深度学习点击率预测算法库

统一视角

快速实验

快速构建新模型

如何使用呢！？

DeepCTR 项目地址：

Welcome to DeepCTR’s documentation！

作者介绍：

本文来自沈伟臣在 DataFun 社区的演讲，由 DataFun 编辑整理。

跨境电商——阿里巴巴速卖通宝典

RGB转16进制工具

在线进制转换器

Markdown 在线编辑器

DeepCTR：易用可扩展的深度学习点击率预测算法库

统一视角

快速实验

快速构建新模型

如何使用呢！？

DeepCTR 项目地址：

Welcome to DeepCTR’s documentation！

作者介绍：

本文来自 沈伟臣 在 DataFun 社区的演讲，由 DataFun 编辑整理。

跨境电商——阿里巴巴速卖通宝典

RGB转16进制工具

在线进制转换器

Markdown 在线编辑器

本文来自沈伟臣在 DataFun 社区的演讲，由 DataFun 编辑整理。