内容简介: 自己之前是一个iOS的小工,后来又去后台搬砖。 一直准备做一个iOS优质文章的聚合,每天定向爬取大V们的博客。所以就萌生了尝试打造一个通用爬虫框架的想法。加上近期开始golang的学习,所以选择使用go来写。 各章内容总结的比较粗糙,有什么问题,欢迎交流,欢迎各位大佬来喷。
golang 制作通用爬虫框架
一、背景
自己之前是一个iOS的小工,后来又去后台搬砖。
一直准备做一个iOS优质文章的聚合,每天定向爬取大V们的博客。所以就萌生了尝试打造一个通用爬虫框架的想法。加上近期开始golang的学习,所以选择使用 go 来写。
各章内容总结的比较粗糙,有什么问题,欢迎交流,欢迎各位大佬来喷。
1.1 初识
我给它起名叫JulyT,目前0.1版本支持Xpath数据解析,批量任务并发。简单的规则编写。就可以完成定向数据的提取.
例如:实现抓取列表,再抓取列表页详情数据,接着翻页继续
func rule(node *Xpath.Node,spider *JulySpider.Spider) { path := Xpath.MustCompile("//*[@id=\"archive-page\"]/section") it := path.Iter(node) for it.Next() { urlPath := Xpath.MustCompile("a/@href") url,_:= urlPath.String(it.Node()) // spider.RunNextStep("http://lastdays.cn"+url,analysisData) } fmt.Println("================一页数据==================") nextPath := Xpath.MustCompile("//*[@id=\"page-nav\"]/a[@class=\"extend next\"]/@href") if nextPath.Exists(node) { url,_ := nextPath.String(node) spider.RunNextStep("http://lastdays.cn"+url,rule) } }
1.2 组件简介
1.2.1 任务池
为每一个爬虫实例提供独立的运行空间。自动调度,自动回收空闲任务节点,任务节点复用。提供最底层的任务环境
1.2.2 调度器
管理所有请求,实现请求优先级调度。过滤重复请求。
1.2.3 下载器
提供高并发的HTML下载。
1.2.4 引擎
处理数据流,控制各个模块之间的调度。监控所有请求流程
1.2.5 spider
爬虫实例,支持规则自定义。
1.3 结构图
1.4 总结
有很多优秀的开源的爬虫框架。自己造这个轮子的目的也是希望得到一些锻炼,JulyT还有很多需要修正改进的地方,我会持续更新这个玩具。目前还缺少一个输出组件,自定义输出规则。会在0.2版本中体现出来。欢迎大家来喷。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 超级易懂爬虫系列之爬虫框架scrapy
- python网络爬虫(14)使用Scrapy搭建爬虫框架
- 一个咸鱼的python爬虫之路(五):scrapy 爬虫框架
- 11、web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
- Scrapy框架-----爬虫
- 网络爬虫框架开发笔记
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
软件人才管理的艺术
Michael Lopp / 罗小平 / 人民邮电出版社 / 201008 / 35.00元
本书作者具有15年的硅谷人才管理经验,他在博客上发表了大量探讨软件人才的管理之道的文章,深受读者欢迎。本书素材取自他的博客文章,用深入浅出的语言,讲述发人深思的道理,具有很强的现实操作性。 本书分为三大部分:“管理的箭袋”、“过程就是产品”、“你的其他版本”。前两部分分别讲述了人员与产品的管理,第三部分除了讨论管理之外,还讲述了如何有针对性地准备简历和电话面试,来提高自己面试成功的几率。书中......一起来看看 《软件人才管理的艺术》 这本书的介绍吧!