这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

栏目: 软件资讯 · 发布时间: 6年前

内容简介:程序员在提升自己的道路,大多还是会选择阅读编程书籍这一途径,但找到一本好书就没那么容易了。通过查看各大销售网站的销量数据和评价,以及豆瓣评分和评价人数,可以帮助我们更快的挖掘出经典的计算机书籍,还有那些被人们忽视的好书。最近猿哥在GitHub上发现了一个网站,是中国科学院自动化研究所的一大神(lanbing510)用Python写的一个爬虫,他在16年的时候就爬下了豆瓣所有的读书数据并做了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚

程序员在提升自己的道路,大多还是会选择阅读编程书籍这一途径,但找到一本好书就没那么容易了。

通过查看各大销售网站的销量数据和评价,以及豆瓣评分和评价人数,可以帮助我们更快的挖掘出经典的计算机书籍,还有那些被人们忽视的好书。

最近猿哥在GitHub上发现了一个网站,是中国科学院自动化研究所的一大神(lanbing510)用 Python 写的一个爬虫,他在16年的时候就爬下了豆瓣所有的读书数据并做了个WebApp接口方来挖掘查找和阅读好书。怪我知道的太晚

这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

后来lanbing510再次爬了一遍豆瓣读书的数据,总共更新了3232088本图书信息,共2138386KB,并将其开源

为什么说它很好用呢?猿哥演示一遍你就知道了:

这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

可以看出这网站的界面非常简洁,没有花里花哨的内容,只有干货,你可以直接通过关键字、分数、和评价人数这三个选项进行搜索,比如我们可以搜索关键字:编程;分数:9.0;评价人数:100人以上

查找结果的显示方式有按照分数排序和人数 排序 两种,按照分数排序的截图如下:

这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

按照评价人数排序的截图如下:

这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

除了以上演示的操作,这个网站并实现了以下功能:

  • 可以爬下豆瓣读书标签下的所有图书
  • 按评分排名依次存储
  • 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
  • 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封

也就是说你不仅可以在网站上搜索,还能通过下载各类目下的Excel书单文件,直接在Excel中搜索

这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

效果截图如下:

这个用Python写的开源爬虫网站 让你秒搜所有豆瓣好书

最后附上网站地址:http://sobook.lanbing510.info

GitHub地址:https://github.com/lanbing510/DouBanSpider


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

结网

结网

王坚 / 人民邮电出版社 / 2010-4 / 55.00元

本书作者一直从事互联网产品的研究和实战,经验丰富,同时作为导师,指导了大量优秀的产品经理,本书的内容也是作者8年来培养产品经理新兵的经验集萃。如果你缺乏培养产品经理的教材,本书正好总结了产品经理知识体系,无疑是你很好的选择。 本书覆盖了相当全面的互联网知识,对于想要了解互联网行业或想要借助互联网进行营销的人来说,都是很好的入门读物。 本书并不是一本完善的互联网创业指南,而是写给胸怀互联......一起来看看 《结网》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具