内容简介:本文介绍爬虫相关流程和搭建我们的需求分三步:step 1 从项目需求中可以分解出俩个信息 三步中均需要抓取 那么就要提供 url 三步中均需要解析 那么需要提供解析函数 func
本文介绍爬虫相关流程和搭建
1. 项目需求
我们的需求分三步:
- 从租房网站上获取到杭州市的所有区的链接和名称
- 根据每个区的链接抓取第一页列表内容,找到房屋的链接和名称
- 根据第2步中获取的链接,抓取对应的房屋的具体信息
2. 项目流程
step 1 从项目需求中可以分解出俩个信息 三步中均需要抓取 那么就要提供 url 三步中均需要解析 那么需要提供解析函数 func
每一步解析到的结果我们需要暂存下来,如果含有链接需要继续抓取 这里我们抽象出两个结构体
//请求结构体
type Request struct {
Url string
ParserFunc func(string) RequestResult
}
//结果解析结构体
type RequestResult struct {
r []Request
Items interface{}
}
step2 然后我们需要解析三个地方
. 获取杭州市的所有区域页面
func ParseArea(contents string)([]string){}
. 获取区域中第一页列表的页面
func ParseList(contents string)([]string,error){}
. 获取房屋详情的页面
func ParseHouse(contents string)([]string,error){}
step3 我们最终要存储的数据是房屋信息
type House struct {
BuildingName string //小区名称
PayType string // 付3押1
UnitType string // 3室2厅2卫
Area int //面积
Toword string // 朝向
Loft string // 楼层
Decorate string //装修
HouseType string //类型: 普通住宅
PublicTime string //发布时间
Price float32 //租金
HouseNo string //房屋编号
}
据此,我们得到一个简版的数据流程图和文件结构图
github地址: house_spider 项目可能优化,可以根据提交记录查看
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- golang[54]-单任务版爬虫爬取相亲页面
- Golang实现简单爬虫框架(4)——队列实现并发任务调度
- SpringBoot与异步任务、定时任务、邮件任务
- 爬虫需谨慎,那些你不知道的爬虫与反爬虫套路!
- 反爬虫之字体反爬虫
- 反爬虫之字体反爬虫
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
機器,平台,群眾
安德魯‧麥克費(Andrew McAfee)、艾瑞克‧布林優夫森(Erik Brynjolfsson) / 李芳齡 / 天下文化 / 2017-12-27 / TWD550
★★Amazon.com商業理財Top1 ★★ 全球暢銷書《第二次機器時代》作者最新力作 兩位MIT數位頂尖科學家歷時三年時間 走訪矽谷、華府、劍橋、紐約、倫敦、舊金山等科技政經重鎮 拜會許多領域精英進行交流,結合宏觀趨勢觀察, 指出人人都應關注的三重革命 科技正以空前速度改變每個產業及每個人的生活, 你該如何做,才能保持領先? 我們生活在一個奇特的......一起来看看 《機器,平台,群眾》 这本书的介绍吧!