内容简介:打开豆瓣电影TOP250,打算爬取电影的四个信息,豆瓣排名,图片,评分,电影名。所以先定义个结构体
打开豆瓣电影TOP250,打算爬取电影的四个信息,豆瓣排名,图片,评分,电影名。
所以先定义个结构体
type Movie struct { Num string Url string Star string Name string }
注意豆瓣电影的网址,是有规律的:
每一页 start
分别为0,25,50.....
所以在主函数里面加个循环:
func main(){ t1 := time.Now() for i := 0; i < 11; i++ { url := fmt.Sprintf("https://movie.douban.com/top250?start=%v&filter=", i*25) fmt.Printf("整在爬取第%v页",i+1) res := getResponse(url)//定义的获取html的函数 DownloadImg(res)// 下载图片的函数 } elapsed := time.Since(t1) fmt.Println("总共用时: ", elapsed) }
爬虫第一步,获取html网页进行解析,安装 goquery
gopm -g -v github.com/PuerkitoBio/goquery
func getResponse(url string) []Movie{ content,err:= goquery.NewDocument(url) if err != nil{ panic(err) } return ParseResponse(content)// } func ParseResponse(doc *goquery.Document) (pages []Movie) { doc.Find("div.item").Each(func(i int, s *goquery.Selection) { img,_ :=s.Find("img").Attr("src") num:=s.Find("em").Text() star:=s.Find("span.rating_num").Text() name,_:=s.Find("img").Attr("alt") pages = append(pages, Movie{ Num: num, Url: img, Star: star, Name: name, }) }) return pages }
这里把 ParseResponse
函数作为返回值,把处理后的 Movie
切片返回。处理网页用到 goquery
的Find匹配网页元素。
查看网页的元素代码,看到这几个需要获取的信息都在 <div class="item>
中,所以先循环获取 item
:
doc.Find("div.item").Each(func(i int, s *goquery.Selection)
打印出来大概就是这样的:
[.....{26 https://img3.doubanio.com/vie... 9.2 乱世佳人} {27 https://img3.doubanio.com/vie... 9.1 蝙蝠侠:黑暗骑士}....]
最后一步下载图片,把图片url和图片名称传给 GetImg
方法。
func GetImg(url string , name string) { res, _ := http.Get(url) file_name := imgpath + "\\" + name + ".jpg" //拼接图片路径 file, _ := os.Create(file_name) io.Copy(file, res.Body) }
网速比较慢,测了几次都是10s多一点。
完整代码 点这里
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- Scrapy教程--豆瓣电影图片爬取
- 数据可视化豆瓣电影 TOP250
- Python数据可视化:豆瓣电影TOP250
- React+Typescript 实现一个简单的豆瓣电影应用
- Python爬虫实战之豆瓣音乐、微打赏、阳光电影(附代码)
- Python 爬虫实战(1):分析豆瓣中最新电影的影评
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
深入理解程序设计
[美] Jonathan Bartlett / 郭晴霞 / 人民邮电出版社 / 2014-1 / 49.00
是否真正理解汇编语言,常常是普通程序员和优秀程序员的分水岭。《深入理解程序设计:使用Linux汇编语言》介绍了Linux平台下的汇编语言编程,教你从计算机的角度看问题,从而了解汇编语言及计算机的工作方式,为成就自己的优秀程序员之梦夯实基础。 很多人都认为汇编语言晦涩难懂,但New Medio技术总监Jonathan Bartlett的这本书将改变人们的看法。本书首先介绍计算机的体系结构,然后......一起来看看 《深入理解程序设计》 这本书的介绍吧!