不到40行 Python 代码打造一个简单的推荐系统

栏目: 编程工具 · 发布时间: 7年前

内容简介：维基百科这样解释道：推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物（例如：电影、电视节目、音乐、书籍、新闻、图片、网页）推荐给使用者。本质上是根据用户的一些行为数据有针对性的推荐用户更可能感兴趣的内容。比如在网易云音乐听歌，听得越多，它就会推荐越多符合你喜好的音乐。推荐系统是如何工作的呢？有一种思路如下：

维基百科这样解释道：推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物（例如：电影、电视节目、音乐、书籍、新闻、图片、网页）推荐给使用者。

本质上是根据用户的一些行为数据有针对性的推荐用户更可能感兴趣的内容。比如在网易云音乐听歌，听得越多，它就会推荐越多符合你喜好的音乐。

推荐系统是如何工作的呢？有一种思路如下：

用户 A 听了收藏了 a,b,c 三首歌。用户 B 收藏了 a, b 两首歌，这时候推荐系统就把 c 推荐给用户 B。因为算法判断用户 A，B 对音乐的品味有极大可能一致。

动手打造自己的推荐系统

这一次我们要做的是一个简单的电影推荐，虽然离工业应用还差十万八千里，但是非常适合新手一窥推荐系统的内部原理。数据集包含两个文件：ratings.csv 和 movies.csv。

# 载入数据
import pandas as pd
import numpy as np
df = pd.read_csv('data/ratings.csv')
df.head()
复制代码

ratings.csv 包含四个维度的数据：

userId:打分用户的 ID
movieId: 被打分电影的 ID
rating: 用户给电影的打分，处于[1，5]
timestamp: 电影被打分的时间

要推荐电影还需要有电影的名字，电影名字保存在 movies.csv 中：

movies = pd.read_csv('data/movies.csv')
movies.head()
复制代码

将 ratings.csv 和 movies.csv 的数据根据 movieId 合并。

df = pd.merge(df, movie_title, on='movieId')
df.head()
复制代码

我们这次要做的推荐系统的核心思路是：

根据所有用户评分判断所有电影与用户 a 已观看的某部电影 A 的相似度
给用户 a 推荐相似度高且评分高的电影

所以我们要先有所有用户对所有电影的评分的列联表：

movie_matrix = df.pivot_table(index = 'userId', columns = 'title' ,values = 'rating')
movie_matrix.head()
复制代码

假设用户 A 观看的电影是 air_force_one (1997)，则计算列联表中所有电影与 air_force_one (1997) 的相关性。

AFO_user_rating = movie_matrix['Air Force One (1997)']
simliar_to_air_force_one = movie_matrix.corrwith(AFO_user_rating)
复制代码

这样我们就得到了所有电影与 air_force_one （1997）的相关性。

但是，直接对这个相关性进行排序并推荐最相关的电影有一个及其严重的问题：

ratings = pd.DataFrame(df.groupby('title')['rating'].mean())#计算电影平均得分
ratings['number_of_ratings'] = df.groupby('title')['rating'].count()
import matplotlib.pyplot as plt
%matplotlib inline
ratings['number_of_ratings'].hist(bins = 60);
复制代码

不到40行 <a href='https://www.codercto.com/topics/20097.html'>Python</a> 代码打造一个简单的推荐系统

上图是电影被评分次数的直方图，可以看到大量的电影评分次数不足10次。评分次数太少的电影很容易就被判断为高相关性。所以我们要将这部分的评分删掉。

corr_AFO = pd.DataFrame(similar_to_air_force_one, columns = ['Correlation'])
corr_AFO.dropna(inplace = True)
corr_contact = corr_contact.join(ratings['number_of_ratings'],how = 'left',lsuffix='_left', rsuffix='_right')
corr_AFO[corr_AFO['number_of_ratings']>100].sort_values(by = 'Correlation',ascending = False).head()
复制代码

这样我们就得到了一个与 air_force_one (1997) 高相关的电影列表。但是高相关有可能评分低（概率低），再从列表里挑几部平均得分高的电影推荐就好了。

叮～叮～叮～

上文的数据集和完整代码我放到微信公众号「数据科学与技术」(read_csv) 了，回复「推荐」就好啦。

PS.掘金应该出一个文件暂存页面，数据科学领域的数据集太重要了:sweat:

以上所述就是小编给大家介绍的《不到40行 Python 代码打造一个简单的推荐系统》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Spring Cloud微服务实战

翟永超 / 电子工业出版社 / 2017-5 / 89

《Spring Cloud微服务实战》从时下流行的微服务架构概念出发，详细介绍了Spring Cloud针对微服务架构中几大核心要素的解决方案和基础组件。对于各个组件的介绍，《Spring Cloud微服务实战》主要以示例与源码结合的方式来帮助读者更好地理解这些组件的使用方法以及运行原理。同时，在介绍的过程中，还包含了作者在实践中所遇到的一些问题和解决思路，可供读者在实践中作为参考。《Sp......一起来看看《Spring Cloud微服务实战》这本书的介绍吧!

码农工具