Python网络爬虫:一万条b站评论看工作细胞

栏目: 编程工具 · 发布时间: 7年前

作者:量化小白H     Python爱好者社区专栏作者

个人公众号:量化小白上分记

7月番《工作细胞》最终话在十一前放出。这部动漫在b站上评分高达9.7。除了口碑之外,热度也居高不下,更值得关注的是连很多平时不关注动漫的小伙伴也加入了追番大军。这次我们的目标是爬取b站上的所有短评进行分析,用数据说明为什么这部动漫会如此受欢迎。

01工作细胞

《工作细胞》改编自清水茜老师的同名漫画,由David Production制作。众所周知,日本ACG作品向来信奉着“万物皆可萌”的原则。前有《黑塔利亚》,后有《舰队Collection》和《兽娘动物园》,分别讲述了将国家,战舰和动物拟人化后的故事。而在《工作细胞》里拟人的对象则轮到了我们的 细胞

Python网络爬虫:一万条b站评论看工作细胞

这是一个发生在人体内的故事:

人的细胞数量,约为37兆2千亿个。

其中包括了我们的女主角:一个副业是运输氧气,主业是迷路的红血球。

Python网络爬虫:一万条b站评论看工作细胞

男主角:一个作者懒得涂色但武力值max的白血球。两人一见面就并肩战斗,分别的时候更是满天粉红气泡。

Python网络爬虫:一万条b站评论看工作细胞

虽然嘴上说着:不会,我只是千千万万个白细胞中的一员。身体却很诚实,从第一集偶遇女主到最后一集,每一集都充满了狗粮的味道。37兆分之一的缘分果然妙不可言。

除了男女主角,配角们的人气也都很高。连反派boss癌细胞都有人喜欢,主要还是因为身世感人+脸长得好。当然人气最!最!最!高的还是我们奶声奶气的血小板。

Python网络爬虫:一万条b站评论看工作细胞

据宅男们反映:“看了这么多番。只有这一部的老婆是大家真正拥有的。”不仅有,还有很多。除了新颖的科普形式,这部番令人感触最深的是:我们每一个人都不是孤独的个体,有37兆个只属于我们的细胞和我们一同工作不息。每当颓唐和失意的时候,为了那些为了保护你而战斗不止的免疫细胞,为了萌萌的老婆们也要振作起来啊。

《工作细胞》的成功并不是一个偶然,而是众多因素共同作用的结果。下面从数据的角度分析它成为今年7月播放冠军的原因。

谢谢宇哥对这部分的贡献,显然超出我的能力范围! Python网络爬虫:一万条b站评论看工作细胞

02爬虫

首先要做的是爬取b站的 所有短评 ,包括评论用户名、评论时间、星级(评分)、评论内容、点赞数等内容,本部分内容为爬虫代码的说明,不感兴趣的读者可以直接跳过,阅读下一部分的分析。

Python网络爬虫:一万条b站评论看工作细胞

爬的过程写了很久,b站短评不需要登陆直接就可以爬,刚开始用类似 之前爬豆瓣 的方法,用 Selenium + xpath 定位爬

Python网络爬虫:一万条b站评论看工作细胞

但b站短评用这种方法并不好处理。网站每次最多显示20条短评,滚动条移动到最下面才会加载之后的20条,所以刚开始用了每次爬完之后将定位到当前爬的位置的方法,这样定位到当前加载的最后一条时,就会加载之后的20条短评。

逻辑上是解决了这个问题,但真的爬的时候就出现了问题,一个是爬的慢,20条需要十来秒的样子,这个没关系,大不了爬几个小时,但问题是辛辛苦苦爬了两千多条之后,就自动断了,不知道是什么原因,虽然之前爬的数据都存下来了,但没法接着断开的地方接着爬,又要重新开始,还不知道会不会又突然断,所以用这种方法基本就无解了。代码附在下面,虽然是失败的,但也可以爬一些评论下来,供参考。

 1# -*- coding: utf-8 -*-
2"""
3Created on Mon Sep 10 19:36:24 2018
4"""

5from selenium import webdriver
6import pandas as pd
7from datetime import datetime
8import numpy as np
9import time
10import os
11
12os.chdir('F:\\python_study\\pachong\\工作细胞')
13def gethtml(url):
14
15 browser = webdriver.PhantomJS()
16 browser.get(url)
17 browser.implicitly_wait(10)
18 return(browser)
19
20def getComment(url):
21
22 browser = gethtml(url)
23 i = 1
24 AllArticle = pd.DataFrame(columns = ['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like'])
25 print('连接成功,开始爬取数据')
26 while True:
27
28 xpath1 = '//*[@id="app"]/div[2]/div[2]/div/div[1]/div/div/div[4]/div/div/ul/li[{}]'.format(i)
29 try:
30 target = browser.find_element_by_xpath(xpath1)
31 except:
32 print('全部爬完')
33 break
34
35 author = target.find_element_by_xpath('div[1]/div[2]').text
36 comment = target.find_element_by_xpath('div[2]/div').text
37 stars1 = target.find_element_by_xpath('div[1]/div[3]/span/i[1]').get_attribute('class')
38 stars2 = target.find_element_by_xpath('div[1]/div[3]/span/i[2]').get_attribute('class')
39 stars3 = target.find_element_by_xpath('div[1]/div[3]/span/i[3]').get_attribute('class')
40 stars4 = target.find_element_by_xpath('div[1]/div[3]/span/i[4]').get_attribute('class')
41 stars5 = target.find_element_by_xpath('div[1]/div[3]/span/i[5]').get_attribute('class')
42 date = target.find_element_by_xpath('div[1]/div[4]').text
43 like = target.find_element_by_xpath('div[3]/div[1]').text
44 unlike = target.find_element_by_xpath('div[3]/div[2]').text
45
46
47 comments = pd.DataFrame([i,author,comment,stars1,stars2,stars3,stars4,stars5,like,unlike]).T
48 comments.columns = ['id','author','comment','stars1','stars2','stars3','stars4','stars5','unlike','like']
49 AllArticle = pd.concat([AllArticle,comments],axis = 0)
50 browser.execute_script("arguments[0].scrollIntoView();", target)
51 i = i + 1
52 if i%100 == 0:
53 print('已爬取{}条'.format(i))
54 AllArticle = AllArticle.reset_index(drop = True)
55 return AllArticle
56
57url = 'https://www.bilibili.com/bangumi/media/md102392/?from=search&seid=8935536260089373525#short'
58result = getComment(url)
59#result.to_csv('工作细胞爬虫.csv',index = False)

这种方法爬取失败之后,一直不知道该怎么处理,刚好最近看到网上有大神爬猫眼评论的文章,照葫芦画瓢尝试了一下,居然成功了,而且爬的速度也很快,十来分钟就全爬完了,思路是找到评论对应的Json文件,然后获取Json中的数据,过程如下。

在Google浏览器中按 F12 打开卡发者 工具 后,选择 Network

Python网络爬虫:一万条b站评论看工作细胞

往下滑动,会发现过一段时间,会出现一个 fetch ,右键打开后发现,里面就是20条记录,有所有我们需要的内容,json格式。

Python网络爬虫:一万条b站评论看工作细胞

所以现在需要做的就是去找这些json文件的路径的规律。多看几条之后,就发现了规律:

第一个json:

https://bangumi.bilibili.com/review/web_api/short/list? media_id=102392&folded=0&page_size=20&sort=0

第二个json:

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76553500953424

第三个json:

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76549205971454

显然所有的json路径的前半部分都是一样,都是在第一条json之后加上不同的cursor = xxxxx,所以只要能找到 cursor 值的规律,就可以用循环的办法,爬完所有的json,这个值看上去没什么规律,最后发现,每一个json路径中cursor值就藏在前一个json的最后一条评论中

Python网络爬虫:一万条b站评论看工作细胞

python 中可以直接把json转成字典,cursor值就是最后一条评论中键cursor的值,简直不要太容易。

所以爬的思路就很清晰了,从一个json开始,爬完20条评论后,获取最后一个评论中的cursor值,更改路径之后获取第二个json,重复上面的过程,直到爬完所有的json。

至于如何知道爬完了所有json,也很容易,每个json中一个 total键 ,表示了当前一共有多少条评论,所以只需要写一个while循环,当爬到的评论数达到total值时停止。

爬的过程中还发现,有些json中的评论数不够20条,如果每次用20去定位,中间会报错停止,需要注意一下。所以又加了一行代码,每次获得json后,通过 len() 函数得到当前json中一共包含多少条评论,cursor在最后一个评论中。

以上是整个爬的思路,我们最终爬到以下信息

1

作者

author

2

评分/星级

score

3

不喜欢

disliked

4

点赞

likes

5

这个全0,没用

liked

6

时间

ctime

7

评论

content

8

cursor

cursor

9

状态

last_ep_index

需要说明的地方,一个是 liked 按照字面意思应该是用户的点赞数,但爬完才发现全是0,没有用。另一个是关于时间,里面有 ctime mtime 两个跟时间有关的值,看了几个,基本都是一样的,有个别不太一样,差的不多,就只取了ctime,我猜可能一个是点击进去的时间,一个是评论提交时间,但没法验证,就随便取一个算了,ctime的编码很奇怪,比如某一个是ctime = 1540001677,渣渣之前没有见过这种编码方式,请教了大佬之后知道,这个是 Linux 系统上的时间表示方式,是1970年1月1日0时0分0秒到当时时点的秒数,python中可以直接用 time.gmtime() 函数转化成年月日小时分钟秒的格式。还有 last_ep_index 里面存的是用户当前的看剧状态,比如看至第13话,第6话之类的,但后来发现很不准,绝大多数用户没有 last_ep_index 值,所以也没有分析这个变量。

代码如下

 1import requests
2from fake_useragent import UserAgent
3import json
4import pandas as pd
5import time
6import datetime
7headers = { "User-Agent": UserAgent(verify_ssl=False).random}
8comment_api = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0'
9
10# 发送get请求
11response_comment = requests.get(comment_api,headers = headers)
12json_comment = response_comment.text
13json_comment = json.loads(json_comment)
14
15total = json_comment['result']['total']
16
17cols = ['author','score','disliked','likes','liked','ctime','score','content','last_ep_index','cursor']
18dataall = pd.DataFrame(index = range(total),columns = cols)
19
20
21j = 0
22while j <total:
23 n = len(json_comment['result']['list'])
24 for i in range(n):
25 dataall.loc[j,'author'] = json_comment['result']['list'][i]['author']['uname']
26 dataall.loc[j,'score'] = json_comment['result']['list'][i]['user_rating']['score']
27 dataall.loc[j,'disliked'] = json_comment['result']['list'][i]['disliked']
28 dataall.loc[j,'likes'] = json_comment['result']['list'][i]['likes']
29 dataall.loc[j,'liked'] = json_comment['result']['list'][i]['liked']
30 dataall.loc[j,'ctime'] = json_comment['result']['list'][i]['ctime']
31 dataall.loc[j,'content'] = json_comment['result']['list'][i]['content']
32 dataall.loc[j,'cursor'] = json_comment['result']['list'][n-1]['cursor']
33 j+= 1
34 try:
35 dataall.loc[j,'last_ep_index'] = json_comment['result']['list'][i]['user_season']['last_ep_index']
36 except:
37 pass
38
39 comment_api1 = comment_api + '&cursor=' + dataall.loc[j-1,'cursor']
40 response_comment = requests.get(comment_api1,headers = headers)
41 json_comment = response_comment.text
42 json_comment = json.loads(json_comment)
43
44 if j % 50 ==0:
45 print('已完成 {}% !'.format(round(j/total*100,2)))
46 time.sleep(0.5)
47
48
49
50dataall = dataall.fillna(0)
51
52def getDate(x):
53 x = time.gmtime(x)
54 return(pd.Timestamp(datetime.datetime(x[0],x[1],x[2],x[3],x[4],x[5])))
55
56dataall['date'] = dataall.ctime.apply(lambda x:getDate(x))
57
58dataall.to_csv('bilibilib_gongzuoxibao.xlsx',index = False)

03影评分析

最终一共爬到了 17398 条影评数据。里面的date是用ctime转过来的,接下来对数据进行一些分析,数据分析通过python3.6完成,代码后台回复" 工作细胞 "可得

Python网络爬虫:一万条b站评论看工作细胞

评分分布

评分取值范围为2、4、6、8、10分,对应1-5颗星

Python网络爬虫:一万条b站评论看工作细胞

可以看出,几乎所有的用户都给了这部动漫五星好评,影响力可见一斑。

评分时间分布

将这部动漫从上线至今所有的评分按日进行平均,观察评分随时间的变化情况

Python网络爬虫:一万条b站评论看工作细胞

可以看出,评分一直居高不下,尤其起始和结束时都接近满分,足见这是一部良好开端、圆满结束的良心作品。

每日评论数

看完评分之后,再看看评论相关的数据,我最感兴趣的是,这些评论的时间分布是怎么样的,统计了每一日的评论数之后,得到了评论数的分布图

Python网络爬虫:一万条b站评论看工作细胞

基本上是每出了新的一话,大家看完后就会在短评中分享自己的感受,当然同样是起始和结束阶段的评论数最多,对比同期的百度指数

Python网络爬虫:一万条b站评论看工作细胞

评论日内分布

除了每日的评论数,也想分析一下评论的日内趋势,用户都喜欢在每日的什么时间进行评论?将评论分24个小时求和汇总后,得到了下图

Python网络爬虫:一万条b站评论看工作细胞

不过这个结果就不是很理想了,横轴是时间,纵轴是评论数,中午到下午的趋势上升可以理解,晚上七八点没有人评论反倒是凌晨三四点评论数最多,这个就很反常了,可能是评论在系统中上线的时间有一定偏差?

好评字数

此外还想分析一下,是否点赞数多的,一定是写的字数越多的?因为文章中大部分的评论是没有点赞的,所以这里中统计了有点赞(likes>0)的评论点赞数和评论字数的数据。由于有一条评论字点赞数太多,严重偏离整体趋势,所以做了对数图进行观察。

Python网络爬虫:一万条b站评论看工作细胞

整体来看,似乎没什么关系,大量字数1-100不等的,点赞数都为1,点赞数大于5的部分有一定的正相关性,说明评论不仅要看数量,还要看质量,写出了大家的心声,大家才会使劲点赞。

评论分析TF-IDF

分析完基础数据后,想更深入挖掘一下评论信息,大家都说了些什么?为什么这部剧这么受欢迎?也许都能在评论中找到答案。

jieba分词、去除停止词、计算词频和TF-IDF的过程不表,与之前两篇文章类似。我们提取了重要性前500的词,这里展示部分

Python网络爬虫:一万条b站评论看工作细胞

血小板高居首位,毕竟大家对萌萌哒事物都是没什么抵抗力的。

词语中也存在一些意义不大的词,前期处理不太到位。不过从这些词云中还是可以看出很多东西,为什么这部剧如此受欢迎?这里通过分词可以得到以下三个解释:

1. 题材好:科普类动漫,老少皆宜

评论中提到了科普、生物、题材等词,还有各种细胞。区别于一般科普向动漫受众低幼的问题,这部番的受众年龄比较广泛。因为所涉及到的知识并不算过于常识。动漫中,每一话,身体的主人都会生一场病,每次出现新的细胞和病毒出现时,都会对他们的身份有比较详细和准确的介绍

Python网络爬虫:一万条b站评论看工作细胞

这种形式寓教于乐,同时战斗的过程也充分地体现了每种细胞的特性。例如,前期因为战斗力弱而被别的细胞瞧不起的嗜酸性粒细胞,在遇到寄生虫的时候大放异彩。可以说,每一种细胞爆种都爆得都有理有据。

2. 人设好

这部番把几乎人体所有的细胞拟人化:红细胞、白细胞、血小板、巨噬细胞等。每一种细胞都有比较独特的设定,从御姐到萝莉,从高冷到话痨。十几个出场的主要人物都各自有立得住的萌点。满足各种口味的需求。

Python网络爬虫:一万条b站评论看工作细胞

3. 制作精良

这一点是毋庸置疑的,好的人设好的题材,如果没有好的制作,都是白谈,评论中也有很多人提到了“声优”、“配音”等。

当然一部剧能够火,不仅仅是这么简单的原因,这里所说的,只是从数据可以看出的,观众的直观感受。

最后我们以萌萌哒血小板词云作为文章的结尾。

Python网络爬虫:一万条b站评论看工作细胞

注:再次说明源码在后台回复“ 工作细胞 ”可得,不要再到后台问我有没有源码,喜欢请点赞 Python网络爬虫:一万条b站评论看工作细胞

Python网络爬虫:一万条b站评论看工作细胞

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

Python网络爬虫:一万条b站评论看工作细胞 福利:文末扫码立刻关注公众号, “Python爱好者社区” ,开始学习Python课程:

关注后在公众号内回复 课程 即可获取

小编的Python入门免费视频课程 !!!

【最新免费微课】小编的Python快速上手matplotlib可视化库!!!

崔老师 爬虫实战案例 免费学习视频。

陈老师 数据分析报告制作 免费学习视频。

玩转大数据分析!Spark2.X+Python 精华实战课程 免费学习视频。

Python网络爬虫:一万条b站评论看工作细胞

本文由Python爱好者社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。

转载、引用前需联系作者,并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Zen of CSS Design

The Zen of CSS Design

Dave Shea、Molly E. Holzschlag / Peachpit Press / 2005-2-27 / USD 44.99

Proving once and for all that standards-compliant design does not equal dull design, this inspiring tome uses examples from the landmark CSS Zen Garden site as the foundation for discussions on how to......一起来看看 《The Zen of CSS Design》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具