随想录(爬虫的几个技巧)

栏目: 编程工具 · 发布时间: 7年前

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】

之前因为个人的兴趣和工作的需要,编写过一些爬虫。但是这些爬虫都不是很好用。等到接触到scrapy框架的时候,才发现自己其实做了很多无用功。有数据表明,现在互联网上有很大一部分的访问来自于爬虫的访问,从这可以看出爬虫的猖獗。爬虫和反爬虫本身就是一对冤家,其中曲折只能自己体会。

1、agent伪装

一般爬虫都会把自己伪装成浏览器,这个时候就需要对agent进行合理设置。

2、处理cookie

部分网站会让会员登陆后才能继续访问,这个时候就需要进行cookie处理。

3、ip proxy

如果单个用户长时间访问,那么就需要准备ip代理池,轮询访问。

4、sleep一会儿

如果用户需要长期访问和更新某个网站,建议运行一段实践休息一会,不要影响网站运行。

5、多个账户登陆

如果获取数据较多,可以选择同时使用多个账户登陆的方法,这样可以提高爬虫效率。

6、selenium使用

部分网站将重要资料用js的方法获取,这个时候就要用selenium进行处理。

7、opencv & sklearn

有些网站需要我们输入验证码,这个时候不光要selenium,opencv也要用上,甚至于要学一点机器学习的知识。

爬虫无所谓对错,但是爬虫千万不能影响网站的运行。如果爬虫本身无节制地搜索,逼着反爬虫的同学和你对着干,那么对谁都是不好的。这一点希望大家牢记。爬虫最重要的地方不是说检索数据、构建正则表达式这些,而是如何学着和web开发的同学和平相处,获取到自己需要的资料而不影响网站的运行。除此之外,如何获得app的api数据,本身也是很有趣的一门学问。有兴趣的同学可以试试。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

软件随想录

软件随想录

Joel Spolsky / 阮一峰 / 人民邮电出版社 / 2009 / 49.00元

《软件随想录:程序员部落酋长Joel谈软件》是一部关于软件技术、人才、创业和企业管理的随想文集,作者以诙谐幽默的笔触将自己在软件行业的亲身感悟娓娓道来,观点新颖独特,内容简洁实用。全书分为 36讲,每一讲都是一个独立的专题。 《软件随想录:程序员部落酋长Joel谈软件》从不同侧面满足了软件开发人员、设计人员、管理人员及从事软件相关工作的人员的学习与工作需要。一起来看看 《软件随想录》 这本书的介绍吧!

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具