随想录(爬虫的几个技巧)

栏目: 编程工具 · 发布时间: 6年前

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】

之前因为个人的兴趣和工作的需要,编写过一些爬虫。但是这些爬虫都不是很好用。等到接触到scrapy框架的时候,才发现自己其实做了很多无用功。有数据表明,现在互联网上有很大一部分的访问来自于爬虫的访问,从这可以看出爬虫的猖獗。爬虫和反爬虫本身就是一对冤家,其中曲折只能自己体会。

1、agent伪装

一般爬虫都会把自己伪装成浏览器,这个时候就需要对agent进行合理设置。

2、处理cookie

部分网站会让会员登陆后才能继续访问,这个时候就需要进行cookie处理。

3、ip proxy

如果单个用户长时间访问,那么就需要准备ip代理池,轮询访问。

4、sleep一会儿

如果用户需要长期访问和更新某个网站,建议运行一段实践休息一会,不要影响网站运行。

5、多个账户登陆

如果获取数据较多,可以选择同时使用多个账户登陆的方法,这样可以提高爬虫效率。

6、selenium使用

部分网站将重要资料用js的方法获取,这个时候就要用selenium进行处理。

7、opencv & sklearn

有些网站需要我们输入验证码,这个时候不光要selenium,opencv也要用上,甚至于要学一点机器学习的知识。

爬虫无所谓对错,但是爬虫千万不能影响网站的运行。如果爬虫本身无节制地搜索,逼着反爬虫的同学和你对着干,那么对谁都是不好的。这一点希望大家牢记。爬虫最重要的地方不是说检索数据、构建正则表达式这些,而是如何学着和web开发的同学和平相处,获取到自己需要的资料而不影响网站的运行。除此之外,如何获得app的api数据,本身也是很有趣的一门学问。有兴趣的同学可以试试。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Sprint

Sprint

Jake Knapp、John Zeratsky、Braden Kowitz / Simon & Schuster / 2016-3-8 / GBP 14.60

媒体推荐 “Every business leader I know worries about the same thing: Are we moving fast enough? The genius of Jake Knapp’s Sprint is its step-by-step breakdown of what it takes to solve big problems an......一起来看看 《Sprint》 这本书的介绍吧!

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具