golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

栏目: 编程工具 · 发布时间: 6年前

内容简介:golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍python,封装好的框架scrapy,其他常用,urllib2,解析用的包的beautifulsoup,配合selenium。以上是随便爬爬。

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

go语言爬虫框架:

gocolly/colly,goquery,colly,chromedp,webloop,go_spider,Pholcus 

https://github.com/hu17889/go_spider

Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国

https://www.golangtc.com/p/557473c9b09ecc2aa700000b

henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库

https://github.com/henrylee2cn/pholcus_lib

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

python,封装好的框架scrapy,其他常用,urllib2,解析用的包的beautifulsoup,配合selenium。以上是随便爬爬。

大型的分布式爬取,难点一个在反反爬,动态ip池,接打码,爬虫行为模式控制,是个体力活;

另一个在爬取和落盘的效率,所以到了一定规模分布式一般用go/java/scala多

python 的scrapy,所有平台都能跑,scrapy是主流方案,各种周边都很成熟,爬视频python有现成的包

python的pyspider框架比较完善,抓取大量网站,解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman:

用nodejs爬指定的少量网站,用request加cheerio就足够了

cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.

https://cheerio.js.org/

crawler - npm

https://www.npmjs.com/package/crawler

ltebean/spiderman: a crawler with visualized config board

https://github.com/ltebean/spiderman

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

C语言点滴

C语言点滴

赵岩 / 人民邮电出版社 / 2013-10-1 / 45.00元

C语言兼具高级语言和汇编语言的特点,学习起来难度较大,令不少初学者望而生畏。同时,C语言又是一门应用非常广泛的编程语言,在实际应用中如何根据不同的应用场景高效地使用C语言,也是大家非常感兴趣的话题。  《C语言点滴》精心选取C语言一些必备知识,这也是初学者容易搞不清楚、犯错误的知识点,进行深入地分析和介绍,以期帮助读者清除C语言学习之路上的“绊脚石”,降低初学入门的难度,培养继续深入的兴趣。  全......一起来看看 《C语言点滴》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

MD5 加密
MD5 加密

MD5 加密工具

html转js在线工具
html转js在线工具

html转js在线工具