Scrapy爬取京东某书评论

栏目: Python · 发布时间: 6年前

作者：国服帅座经济学在读硕士

公众号：统计之家

无论是爬取静态网页，还是利用高德地图API获得数据，本文作者都偏好使用requests模块。在本文中，本人爬取京东书评，运用的是Scrapy框架。

观察页面结构

首先，在京东上搜索某书，以丘祐玮老师的《数据科学：R语言实现》为例，该书评价页面仅有2页，共计14条评论。

Scrapy爬取京东某书评论

其次，在Chrome中右击“检查”，点击“Network“下的”JS”，寻找到“productPageComments”。

Scrapy爬取京东某书评论

然后，双击该链接，观察页面发现，这是JSON字符串，在转化为 Python 字典前，需要先把大括号外面的多余字符串去除。

Scrapy爬取京东某书评论

爬取京东书评

在命令提示符中输入以下代码，先创建一个目录（jingdong），然后进入该目录，在该目录的spiders目录中生成爬虫文件（pinglun.py）。

Scrapy爬取京东某书评论

打开pinglun.py文件，输入以下代码：

# -*- coding: utf-8 -*- 

import scrapy
import json

class PinglunSpider(scrapy.Spider):
    name = 'pinglun'
    allowed_domains = ['web']
    start_urls = ['https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv27
&productId=12088321&score=0&sortType=5&page={}&pageSize=10&isShadowSku=0&fold=1'.format(i) for i in range(0,2)] 

# 上步在page参数位置使用for循环，取值与评论页数有关  



    def parse(self, response):
        jd = json.loads(response.text.lstrip('fetchJSON_comment98vv27(').rstrip(');'))
        pinglun = jd['comments']  # 上步将JSON字符串转化为Python字典格式 

        for i in pinglun:
            results = {}
            results['content'] = i['content']       # 评论内容  

            results['time']    = i['creationTime']  # 评论时间 

            print (results)

接着，在命令提示符中输入以下命令： Scrapy爬取京东某书评论

获得结果如下，合计14条评论。 Scrapy爬取京东某书评论

Scrapy爬取京东某书评论

往期精彩传送

Scrapy爬取京东某书评论

本文由国服帅座创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。

转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

以上所述就是小编给大家介绍的《Scrapy爬取京东某书评论》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

逻辑的引擎

[美] 马丁·戴维斯 / 张卜天 / 湖南科学技术出版社 / 2005-5 / 20.00元

本书介绍了现代计算机背后的那些基本概念和发展这些概念的人，描写了莱布尼茨、布尔、费雷格、康托尔、希尔伯特、哥德尔、图灵等天才的生活和工作，讲述了数学家们如何在成果付诸应用之前很久就已经提出了其背后的思想。博达著作权代理有限公司授权出版据美国W.W.Norton公司2000年版本译出。2007年第二版亦使用同一ISBN。一起来看看《逻辑的引擎》这本书的介绍吧!

码农工具

Scrapy爬取京东某书评论

观察页面结构

爬取京东书评

逻辑的引擎

JSON 在线解析

Base64 编码/解码

HEX CMYK 转换工具