Scrapy之10行代码爬下电影天堂全站

栏目: 编程工具 · 发布时间: 7年前

作者：张小鸡 Python爱好者社区专栏作者

知乎ID： https://www.zhihu.com/people/mr.ji

个人公众号：鸡仔说

前言

scrapy的强大相信大家已早有耳闻，之前用的时候只是感觉它爬取效率高，内部的异步封装很友好。殊不知我看到的知识冰山一角，它还有很多提高开发效率的功能，今天就以一个实例带大家窥探一二

工具环境

语言：python3.6
编辑器：Pycharm
数据库：MongoDB
框架：scrapy1.5.1

温馨提示

阅读此文可能需要对scrapy框架有基本的了解，对xpath解析有一个基本的了解

爬取思路

爬取站点：dytt8.net/

这样的站点我一眼望过去就想给站长打Q币，为什么啊？这站点简直是为爬虫而生啊？你看，一点花里胡哨的东西都没有，我们小眼一瞅便知，和我们不相关的就只是游戏部分的资源。我们需要如果要进入爬取更多的页面就只需要点击导航页

Scrapy之10行代码爬下电影天堂全站

当我点开这些导航页，我都要惊喜的哭了，你们谁也别拦我，我要给站长打钱，对爬虫简直太友好了，我们其实只需要跟踪带有index页面的链接，然后深入下去爬取内页即可

当我们到达内页，再看下哪里可以深入，这里其实也很简单，翻到最底下发现，只需要继续跟踪下一页链接即可

Scrapy之10行代码爬下电影天堂全站

show me the code

1. 新建项目文件

scrapy startproject www_dytt8_net 得到一个如下结构的文件目录

本文由 Python 爱好者社区创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。

转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

以上所述就是小编给大家介绍的《Scrapy之10行代码爬下电影天堂全站》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

iOS应用逆向工程第2版

沙梓社、吴航 / 机械工业出版社 / 2015-4-1 / 79.00

你是否曾因应用上线的第一天即遭破解而无奈苦恼，想要加以防范，却又束手无策？你是否曾为某一应用深深折服，想要借鉴学习，却又无从下手？你是否已不满足于public API，想要进军Cydia开发，却又求学无门？你是否已产生“不识Apple真面目，只缘身在App Store中”的危机感，想要通过阅读来一窥这冰山一角外的整个北极，却又找不到合适的书？你是否已经因无法跨越开发......一起来看看《iOS应用逆向工程第2版》这本书的介绍吧!

码农工具

Scrapy之10行代码爬下电影天堂全站

前言

工具环境

温馨提示

爬取思路

show me the code

iOS应用逆向工程第2版

URL 编码/解码

html转js在线工具

正则表达式在线测试

Scrapy之10行代码爬下电影天堂全站

前言

工具环境

温馨提示

爬取思路

show me the code

iOS应用逆向工程 第2版

URL 编码/解码

html转js在线工具

正则表达式在线测试

iOS应用逆向工程第2版