golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

栏目: 编程工具 · 发布时间: 7年前

内容简介:golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍python,封装好的框架scrapy,其他常用,urllib2,解析用的包的beautifulsoup,配合selenium。以上是随便爬爬。

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

go语言爬虫框架:

gocolly/colly,goquery,colly,chromedp,webloop,go_spider,Pholcus 

https://github.com/hu17889/go_spider

Pholcus 幽灵蛛重量级爬虫软件(含3种操作界面) - Golang中国

https://www.golangtc.com/p/557473c9b09ecc2aa700000b

henrylee2cn/pholcus_lib: 公共维护的Pholcus爬虫规则库

https://github.com/henrylee2cn/pholcus_lib

golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍

python,封装好的框架scrapy,其他常用,urllib2,解析用的包的beautifulsoup,配合selenium。以上是随便爬爬。

大型的分布式爬取,难点一个在反反爬,动态ip池,接打码,爬虫行为模式控制,是个体力活;

另一个在爬取和落盘的效率,所以到了一定规模分布式一般用go/java/scala多

python 的scrapy,所有平台都能跑,scrapy是主流方案,各种周边都很成熟,爬视频python有现成的包

python的pyspider框架比较完善,抓取大量网站,解析大量页面时做分布式和后台管理都比较方便

java爬虫配合jsoup也是不错的选择

nodejs主要框架有cheerio、crawler、spiderman:

用nodejs爬指定的少量网站,用request加cheerio就足够了

cheerio | Fast, flexible, and lean implementation of core jQuery designed specifically for the server.

https://cheerio.js.org/

crawler - npm

https://www.npmjs.com/package/crawler

ltebean/spiderman: a crawler with visualized config board

https://github.com/ltebean/spiderman

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Web Data Mining

Web Data Mining

Bing Liu / Springer / 2011-6-26 / CAD 61.50

Web mining aims to discover useful information and knowledge from Web hyperlinks, page contents, and usage data. Although Web mining uses many conventional data mining techniques, it is not purely an ......一起来看看 《Web Data Mining》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试