© PaperWeekly · 作者|陈冲、张敏
单位|清华大学人工智能实验室信息检索组
研究方向|推荐系统
引言
随着互联网技术和产业的迅速发展, 推荐系统 (Recommender System)成为网络应用中不可缺少的重要组成部分,是当前解决信息过载问题的最有效的方法之一,因此也受到了学界和工业界的广泛关注。
近年来,深度学习技术在许多领域展现出非凡的应用效果。然而,现有的将深度学习应用到推荐系统任务的工作主要集中在探索和引入不同的神经网络框架,在模型学习算法方面的研究相对较少。
为了优化模型,现有的工作往往使用负采样策略(Negative Sampling)进行训练。虽然负采样方便并且易于实现,但是许多最近的研究表明负采样策略的鲁棒性较差,可能会忽略掉重要的训练样例从而导致模型无法收敛到最优的状态。
在近两年,清华大学信息检索课题组(THUIR)首次探索了将 非采样 策略(Non-Sampling, Whole-data based Learning)应用到基于神经网络的推荐系统中。
通过严格的数学推理,我们设计了一系列高效的非采样学习算法,使得整体数据中学习的时间复杂度 在理论数量级上有所降低 。基于所设计的高效非采样算法框架,我们分别设计了不同应用场景下的神经网络推荐模型,并在多个现实数据集上相比于已有 state-of-the-art 方法在训练时间和模型表现上均取得了非常显著的效果,包括:
1. 基础场景 (只使用用户和商品 ID 信息):推荐效果提升 5% 以上,训练时间快 30 倍 以上 (TOIS 录用) ;
2. 基于社交关系的推荐系统:推荐效果提升 4% 以上,训练时间快 7 倍 以上 (SIGIR 2019 录用) ;
3. 基于多行为数据的推荐系统:推荐效果提升 40% 以上,训练时间快 10 倍 以上 (AAAI 2020 录用) ;
4. 包含特征(feature)和上下文(context)的推荐系统:推荐效果提升 9% 以上,训练时间快 5 倍 以上 (WWW 2020 录用) 。
接下来我们简要介绍相关工作的主要内容。
负采样策略 v.s. 非采样策略
推荐系统中经常用到的数据是隐式反馈数据(Implicit Feedback Data),如浏览历史,点击日志等。这些数据往往只有正反馈而没有负反馈,并且数据是高度稀疏的(相比于用户点击过的产品,没有被点击过的产品的数量非常多)。在推荐系统中使用隐式反馈数据,有两种常见的学习方法:1)负采样策略,2)非采样策略。
负采样策略是从所有用户未标记的样例中抽取一部分作为负例,而非采样策略则是将所有用户未标记的样例作为负例。两种方法都有各自的优点和缺点:
以上两种策略在 传统 的 推荐算法中均有广泛应用,如 BPR 使用负采样策略训练而 WMF 使用非采样策略训练。由于传统的非采样策略复杂度较高, 现有的基于深度学习的工作通常采用负采样进行训练来保证效率 ,但是可能会降低模型的表现效果。
高效非采样学习算法
在隐式数据中,用户(user)和商品(item)的交互数据定义如下:
传统的非采样学习使用加权回归的 loss function:
其中 B 代表一个 batch 的 user,V 代表全部的 item,d 表示 embedding 的大小,表示该样例的权重。可以看到,训练复杂度是 ,非常大并且在基于神经网络的推荐模型中往往是不可接受的。
因此,我们对该 loss 进行推导,我们首先有如下结论:
定理 1: 对于一个预测函数如下的泛化矩阵分解模型(其中 和 表示用户和商品向量,⊙ 表示向量点积)。
Loss (1) 的梯度等价于下列 loss:
证明过程如下(详细证明请参考论文):
将 带入,并且进行合并操作:
合并之后,再将 展开代入得到:
通过上述推导,我们有:
非采样训练复杂度如右上所示,由于在实际数据中正反馈数量 ,因此新推导的 loss 的复杂度从理论上降低了一个数量级。
高效非采样训练策略的应用
基于所设计的高效非采样训练策略,我们提出了若干个神经网络模型,简单介绍如下。
基础场景(只使用用户和商品ID信息)
首先是在基础的推荐场景下,即只使用用户和商品的 ID 信息时,我们提出了非采样的高效神经网络矩阵分解框架(Efficient Neural Matrix Factorization, ENMF)。模型框架如下图所示:
ENMF 是一个非常基础的一层矩阵分解框架,模型结构与 Neural Collaborative Filtering (NCF) 类似但是有两个主要区别:
1. 与 NCF 每次输入 user-item pair (u,v) 不同,ENM 的输入是用户和他/她所有的交互商品(user-based),或是商品和它所有的交互用户(item-based)。
2. 与现有的通常基于负采样的神经网络模型不同,我们采用所设计的高效非抽样算法对模型进行训练,因为考虑了所有的训练样例,这样的方式更能够更充分的对模型进行训练。
数据集
我们对比了多个 state-of-the-art 推荐模型,包括传统推荐模型 BPR (UAI’09),WMF (ICDM’08) 和 ExpoMF (WWW’16),以及神经网络模型 GMF (WWW’17),NCF (WWW’17) 和 ConvNCF (IJCAI’18)。各方法之间的比较如下:
为了验证 ENMF 的效果,我们在 3 个公开数据集上进行了实验,数据集如下所示:
对比方法
我们对比了多个 state-of-the-art 推荐模型,包括传统推荐模型 BPR (UAI’09),WMF (ICDM’08) 和 ExpoMF (WWW’16),以及神经网络模型 GMF (WWW’17),NCF (WWW’17) 和 ConvNCF (IJCAI’18)。各方法之间的比较如下:
模型表现
我们的 ENMF 与对比方法的表现结果展示在下表中,从表中我们可以观察到几个重要的结论:
1. 使用非采样策略的方法往往表现好于负采样的方法,在传统方法中,WMF,ExpoMF 的表现均优于 BPR,在神经网络方法中,我们的 ENMF 显著优于 GMF,NCF 以及基于 CNN 的 ConvNCF。
2. 我们的 ENMF 取得了最好的效果,并且显著优于所有对比方法。ENMF 是一个浅的神经网络方法,参数量和模型复杂度均少于 ConvNCF,但是模型表现却更好,这显示了使用非采样学习算法带来的训练优势。
训练效率
我们也在相同的机器上对比了 ENMF 和神经网络推荐算法的训练效率(Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU)。各个模型所需训练时间如下表所示:
从表中可以看到,我们的方法 ENMF 所需要的训练时间比对比方法少了几个数量级。比如,在 Epinion 数据集上,以往方法需要超过 30 小时的训练时间,而我们的方法分别只需要 27 分钟,70 分钟,以及 53 分钟达到收敛,快了大约 30 倍 。
在现实应用场景中,训练效率也是一个重要的考虑因素。我们的 ENMF 在这方面与已有方法相比展现了非常显著的优势,也验证了我们新提出的非采样学习方法的高效性。
该部分工作发表在 CCF A 类期刊:
Chong Chen, Min Zhang, Yongfeng Zhang, Yiqun Liu and Shaoping Ma. Efficient Neural Matrix Factorization without Sampling for Recommendation . ACM Transactions on Information Systems. (TOIS Vol. 38, No. 2, Article 14)
基于社交关系的推荐系统场景
用户的社交信息可以用来帮助用户偏好建模,提高推荐结果的准确性。在基于社交关系的推荐场景下,同样可以使用非采样的训练策略。在这部分工作中,我们提出了一个应用于社交推荐的高效非抽样自适应迁移网络(Efficient Adaptive Transfer Neural Network, EATNN)。模型框架如下图所示:
在已有的迁移学习方法中,通常采用静态传输方案来共享用户在商品和社交领域之间的共同偏好。我们认为这样是不符合实际场景的,因此,我们通过进入注意力机制,自动为每个用户分配一个个性化的迁移方案。我们同时扩展了高效非采样学习算法,使其可以支持多任务学习。模型具体结构如下:
对于商品推荐任务:
对于社交发现任务:
联合学习(Joint Learning):
数据集
为了验证所提出的 EATNN 的效果,我们在 3 个公开数据集上进行了实验,数据集如下所示:
对比方法
我们对比了多个 state-of-the-art 推荐模型,包括 BPR (UAI’09),ExpoMF(WWW’16),NCF (WWW’17),SBPR (CIKM’14),TranSIV (CIKM’17),以及 SAMN (WSDM’19)。各方法之间的比较如下:
模型表现
我们的 EATNN 与对比方法的表现结果展示在下表中,从表中可以观察到, 所提出的 EATNN 模型显著的优于所有的对比方法。我们认为有两点原因:
1. EATNN 引入注意力机制来自适应的迁移用户在商品和社交领域之间的偏好,这更符合实际场景并且可以让社交信息得到更精准的利用。
2. 我们使用非采样学习策略来同时对商品推荐以及社交发现任务进行训练,相比于基于负采样的方法,非采样的覆盖面更广,使得模型能够收敛到一个更加优秀的状态。
训练效率
我们也在相同的机器上对比了 EATNN 和基于社交信息的推荐算法的训练效率(Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU)。各个模型所需训练时间如下表所示:
从表中可以看到,我们的方法 EATNN 所需要的训练时间显著少于对比方法。比如,在最大的 Flixster 数据集上,同样是神经网络方法,SAMN 需要 8 天才能训练完毕,而我们的 EATNN 只需要 27 小时。对于其他两个数据集,EATNN 在效率上的提升同样引人注目。
该部分工作发表在 CCF A 类会议:
Chong Chen , Min Zhang, Chenyang Wang, Weizhi Ma, Minming Li, Yiqun Liu and Shaoping Ma. An Efficient Adaptive Transfer Neural Network for Social-aware Recommendation. The 42th International ACM SIGIR Conference on Research and Development in Information Retrieval. (SIGIR 2019)
基于多行为数据的推荐系统场景
在许多实际的网络场景中,用户可以在平台上与商品有多种交互信息。例如,在电商平台上用户可以浏览商品(View),加入购物车(Add-to-cart),以及直接购买(Purchase)。
在许多以往的工作中,这些用户的多行为数据没有被很好的利用到。大多数现有方法仅利用一种主要类型的用户反馈,如购买。在这项工作中,我们提出了一个新的非采样学习模型,称为高效异构协同过滤(EHCF)。它不仅可以对细粒度的用户—商品关系进行建模,而且可以很好地从整个异构数据(包括所有未标记的数据)中学习模型参数,同时保持很低的时间复杂度。
我们提出的 EHCF 主要基于以下两个 motivation:
1. 为了利用多行为数据,已有的基于负采样方法需要对每一种行为进行采样,这会产生一个非常大的随机性(K 倍于单行为数据),并且不利于多任务学习。针对上述问题,我们设计了基于非采样的多任务学习框架来全面地利用用户的多行为数据。
2. 用户的多种行为之间不是互相独立的,存在着一定的迁移关系。如上图中虚线所示,用户的购买行为通常发生在用户观看或者加入购物车之后。考虑行为之间迁移关系可以更精细的利用多行为数据。
所设计的 EHCF 模型如下图所示:
对第 k 种行为的预测函数:
从行为 t 到 k 的转移函数:
行为 k 的预测向量定义如下:
我们同样使用所设计的高效非抽样算法对每种行为进行优化:
多任务学习:
数据集
为了验证所提出的 EHCF 的效果,我们在 3 个公开数据集上进行了实验,数据集如下所示:
对比方法
我们对比了多个 state-of-the-art 推荐模型,包括单行为模型 BPR (UAI’09),ExpoMF (WWW’16),NCF (WWW’17) 以及多行为模型 CMF (WWW’15),MC-BPR (RecSys’16),以及 NMTR (ICDE’19, TKDE’20)。
模型表现
我们的 EHCF 与对比方法的表现结果展示在上表中,从表中可以观察到, 所提出的 EHCF 模型显著的优于所有的对比方法。相比于最新提出的同样利用多行为数据的神经网络模型 NMTR,我们的 EHCF 在 Beibei 和 Taobao 数据集上的相对提升达到了惊人的 47.5% 以及 57.1% 。
我们认为原因主要是因为 NMTR 是一个基于负采样的模型,虽然负采样在单行为数据中被广泛的应用,但是其并不适合用来学习多行为数据,由于需要对每一种行为进行采样,负采样策略所产生的随机性是成倍增加的,较大的随机性会忽视掉许多有用的训练样例,使得模型没办法得到充足的训练。
NMTR 是一个基于 NCF 的方法,当使用了多行为数据时,它相比于 NCF 在 Beibei 和 Taobao 数据集上分别提升了 34.6% 和 46.9%(与该作者报告基本一致)。而我们的 EHCF 在使用了多行为数据时,相比于单行为的 EHCF-sin 在这两个数据集上分别提升了 79.4% 和 108.8%。表中的结果显示非采样学习策略对于多行为数据的利用是非常有效的。
训练效率
我们也在相同的机器上对比了 EHCF 和对比算法的训练效率(Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU)。各个模型所需训练时间如下表所示:
从表中可以看到,我们的方法 EHCF 所需要的训练时间显著少于对比方法。比如,在 Taobao 数据集上,同样是基于神经网络的多行为推荐模型,NMTR 需要 600 分钟(10 小时)才能训练完毕,而 EHCF 只需要 54 分钟,比 NMTR 快了 10 倍。在 Beibei 数据集上,EHCF 的训练时间比 NMTR 快了超过 20 倍。
该部分工作发表在 CCF A 类会议:
Chong Chen , Min Zhang, Weizhi Ma, Yongfeng Zhang, Yiqun Liu and Shaoping Ma. Efficient Heterogeneous Collaborative Filtering without Negative Sampling for Recommendation. The 44th AAAI Conference on Artificial Intelligence. (AAAI 2020) .
包含特征(feature)和上下文(context)的推荐系统场景
为了提供更准确的推荐结果,考虑用户和商品的特征以及上下文是非常重要的。考虑上下文的推荐系统(Context-aware Recommendation)正是这样一个任务。
分解机模型(Factorization Machines,FM)是一类很好的考虑上下文的推荐方法。然而,现有的对于 FM 的研究主要集中于使用不同的神经网络结构来建模高阶(high-order)关系,并且这些工作往往致力于解决评分预测(而不是 Top-N 推荐)任务。
虽然也有一些研究者结合负采样策略和 FM 来提供推荐结果,但由于负采样的不稳定性(容易忽视重要的训练样例导致训练不足),我们认为现有的 FM 方法对于考虑上下文的 Top-N 推荐系统仍然是不足够的。
在这部分工作中,我们提出从全部数据中学习 FM 来进行 Top-N 推荐,并设计了一个高效的非采样分解机框架(Efficient Non-Sampling Factorization Machines, ENSFM)。通过严格的数学推导,ENSFM 不仅在两类常用的推荐方法——分解机(FM)和矩阵分解(MF)之间建造了一个桥梁,并且可以高效的从整体数据中学习 FM 参数。
所设计的 ENSFM 框架如下所示:
ENSFM 的预测函数是一个泛化的 FM 函数:
我们首先给出一个结论:
定理 2: 一个泛化的 FM 预测函数可以重构成一个矩阵分解的形式:
其中 只跟 u 的上下文相关, 只跟 v 的上下文相关。
证明(详细证明请参考论文):
首先对 f(x) 展开,分成只跟用户 u 相关的 ,只跟商品 v 相关的 ,以及跟用户和商品都相关的部分:
第二步,我们构建 3 个辅助向量如下:
得证。
根据定理 1 和定理 2,我们可以得到 ENSFM 的高效非抽样 loss:
数据集
为了验证所提出的 ENSFM 的效果,我们在 3 个公开数据集上进行了实验,数据集如下所示:
数据集中 Frappe 和 Last.fm 和 CFM (IJCAI’19) 论文中使用的完全一致。
对比方法
我们对比了多个 state-of-the-art 推荐模型,包括 FM (ICDM’10),DeepFM (IJCAI’ 17),NFM (SIGIR’17),ONCF (IJCAI’18),CFM (IJCAI’19) 以及我们之前的 ENMF (TOIS’20)。
模型表现
实验结果如上表所示,首先,我们的 ENSFM 效果显著优于所有的对比方法。与各种 FM 方法,包括最近提出的基于 CNN 的 CFM 相比,ENSFM 在三个数据集上的相对提升分别超过了 9.15%,48.05% 以及 20.22%。
ENSFM 是一个只有一层预测层的浅 FM 模型,跟 DeepFM, CFM 相比在复杂度和参数量上都更少,却在模型效果上表现显著的优势。这样的结果再一次验证了我们的观点:负采样策略并不足以使模型收敛到最优。与之相比,非采样学习对于优化 Top-N 推荐任务是非常有效的。
同时也可以看到,虽然深度学习的方法如 NFM, DeepFM, CFM 在使用同样的负采样训练时表现会优于 FM,所带来的提升相比于我们的 ENSFM 是相对较小的,这也显示了一个行之有效的学习方法有时候比更深更复杂的神经网络所带来的提升更加明显。
训练效率
我们也在相同的机器上对比了 ENSFM 和对比算法的训练效率(Intel Xeon 8-Core CPU of 2.4 GHz and single NVIDIA GeForce GTX TITAN X GPU)。各个模型所需训练时间如下表所示:
表中的实验结果显示,我们的 ENSFM 相比于现有的 FM 算法在训练效率上展现出巨大的优势。如在 Movielens 数据集上,已有的各种 FM 方法分别需要 5 小时,6 小时,9 小时和 3 天才能训好,而 ENSFM 只需要 7 分钟即可训练完毕,这比 NFM 快了 50 倍 ,以及比 CFM 快了 600 倍 。这验证了我们新提出的非采样学习方法的高效性。
该部分工作发表在 CCF A 类会议:
Chong Chen , Min Zhang, Weizhi Ma, Yiqun Liu and Shaoping Ma. Efficient Non-Sampling Factorization Machines for Optimal Context-Aware Recommendation. The Web Conference 2020 (WWW 2020)
约束,能够作为辅助的监督信息,适用于多种基于匹配代价体的立体匹配方法。
总结
在本文中,我们讨论了在个性化推荐系统中的非采样学习策略。我们首先介绍了非采样学习策略的优势(覆盖面广,训练效果更好),随后针对传统非采样策略的劣势(效率低,复杂度高),提出了一系列新的高效算法,使得整体数据中学习的时间复杂度 在理论数量级上有所降低 。
基于所设计的高效非采样算法框架,我们分别设计了不同应用场景下的神经网络推荐模型,并在多个现实数据集上相比于已有 state-of-the-art 方法在训练时间和模型表现上均取得了非常显著的效果。
近年来,基于深度学习的推荐系统研究越来越多,但是大部分的工作集中于尝试各种新提出来的神经网络框架在推荐任务上的应用。
本文对我们最近在非采样推荐模型上的研究做了一些总结。所设计的高效非采样模型在推荐效果与训练效率上都显著优于现有的深度学习模型。我们的工作显示,非采样训练策略对于推荐系统有着非常明显的促进效果,所带来的提升甚至超过复杂先进的模型结构及更多的参数量。
未来,我们希望会有更多的研究人员从各个不同的角度对推荐系统进行更加深入的研究。欢迎感兴趣的同学老师们和我们一起进行交流。
作者介绍
陈冲,清华大学人工智能实验室信息检索组(THUIR)三年级博士生 ,本科毕业于清华大学计算机科学与技术系。研究方向包括基于深度学习的推荐系统,可解释推荐系统,以及高效快速的推荐系统。他在 WWW,SIGIR,WSDM,TOIS,AAAI 等发表了多篇学术论文。
Github:
https://github.com/THUIR
https://github.com/chenchongthu
主页: https://chenchongthu.github.io
邮箱: cstchenc@163.com
张敏,清华大学计算机科学与技术系长聘副教授 ,主要研究领域 Web 信息检索、个性化推荐以及用户建模。现任计算机系智能技术与系统实验室副主任,清华大学人工智能研究院智能信息获取中心副主任,同时担任 ACM SIGIR 执行委员会委员,ACM TOIS 期刊编委,WebConf 2020 的 Web 挖掘和内容分析领域主席等。曾任 SIGIR 2018 的短文主席,WSDM 2017 的程序委员会主席等。发表多篇论文,引用指数 H-index 36。她还与国际国内产业界开展深入合作,并拥有 12 项专利。
点击以下标题查看更多往期内容:
# 投 稿 通 道 #
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是 最新论文解读 ,也可以是 学习心得 或 技术干货 。我们的目的只有一个,让知识真正流动起来。
:memo: 来稿标准:
• 稿件确系个人 原创作品 ,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
:mailbox_with_mail: 投稿邮箱:
• 投稿邮箱: hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
:mag:
现在,在 「知乎」 也能找到我们了
进入知乎首页搜索 「PaperWeekly」
点击 「关注」 订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击 「交流群」 ,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取最新论文推荐
以上所述就是小编给大家介绍的《浅谈个性化推荐系统中的非采样学习》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- CNN 真的需要下采样(上采样)吗?
- Hive的分桶和采样
- 【信号与系统】05 - 滤波、采样和通信
- 加权随机采样 (Weighted Random Sampling)
- 深度卷积神经网络中的降采样
- SQL Server 查找统计信息的相关采样信息
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。