node.js爬虫中关村在线电瓶车信息

栏目: Node.js · 发布时间: 7年前

内容简介：最近打算买一辆电瓶车来上下班，但又不知道哪个好，网上是各说纷纭啊，于是就想着，干脆用node.js自己写一个小爬虫，来爬一下中关村在线里面电瓶车的信息吧。（以后完整代码请前往www.yubowen2003.com 暂时还在建设中，欢迎大家提issue:joy: 。）该demo采用node.js作为爬虫，为方便，有些地方使用es6语法，如有不懂，欢迎咨询:blush:

最近打算买一辆电瓶车来上下班，但又不知道哪个好，网上是各说纷纭啊，于是就想着，干脆用node.js自己写一个小爬虫，来爬一下中关村在线里面电瓶车的信息吧。

（以后完整代码请前往www.yubowen2003.com 暂时还在建设中，欢迎大家提issue:joy: 。）

简介

该demo采用node.js作为爬虫，为方便，有些地方使用es6语法，如有不懂，欢迎咨询:blush:

步骤

第一步，引入需要的库

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一个类似浏览器端的jQuery，用来解析HTML的
// fetch 用来发送请求
复制代码

第二步，设置初始的爬取的入口(我身处杭州，所以地区选了杭州的 )

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每个a标签下是相对路径，故需要一个根地址来拼接，如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url，之所以用set，是为了防止有相同的而重复爬去
var urls = new Set()
// 存储所有数据
var data = [] 
复制代码

至此，我们的准备部分结束了:sweat_smile:，接下来，开始表演了

分析网页，思考爬取的方式

每行4款，每页是48款，一共16页

思路：

每次获取当前页48个链接，并点进去之后，拿到该电瓶车的名称和价格（其他信息获取方式一样，自行改就好:joy:）
第一页的全部完成之后，翻到下一页，继续爬，直到最后一页结束

首先我们定义一个函数如下

// 这是得到每个页面的48个链接，并开始发送请求

function ad(arg){
    // 参数 arg 先不管
    // 本地化一下需要爬取的链接
    let url2 = arg || url;
    // 请求第一页该网页，拿到数据之后，复制给 app
    var app = await fetch(url2).then(res=>res.text())
    // 然后假装用jQuery解析了
    var $ = cheerio.load(app)
    // 获取当前页所有电瓶车的a标签
    var ele = $("#J_PicMode a.pic")
    // 存放已经爬取过的url，防止重复爬取
    var old_urls = []
    var urlapp = []
    //拿到所有a标签地址之后，存在数组里面，等会儿要开始爬的
    for (let i = 0; i < ele.length; i++) {
        old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    // 用把URL一块丢给promise处理
    urlapp = await Promise.all(old_urls)
    // 处理完成之后，循环加入jQuery:joy:
    for (let i = 0; i < urlapp.length; i++) {
        let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
        data.push({
            name:$2(".product-model__name").text(),
            price:$2(".price-type").text()
        })
    }
    // 至此，一页的数据就爬完了
    // console.log(data);
    
    // 然后开始爬取下一页
    var nextURL = $(".next").attr('href')
    // 判断当前页是不是最后一页
    if (nextURL){
        let next = await fetch(urlRoot+nextURL).then(res=>res.text())
        // 获取下一页的标签，拿到地址，走你
        ad(urlRoot+nextURL)
    }
    return data
}
ad()
复制代码

完整代码如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
    let url2 = arg || url;
    var app = await fetch(url2).then(res=>res.text())
    var $ = cheerio.load(app)
    var ele = $("#J_PicMode a.pic")
    var old_urls = []
    var urlapp = []
    for (let i = 0; i < ele.length; i++) {
        old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    urlapp = await Promise.all(old_urls)
    for (let i = 0; i < urlapp.length; i++) {
        let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
        data.push({
            name:$2(".product-model__name").text(),
            price:$2(".price-type").text()
        })
    }
    
    var nextURL = $(".next").attr('href')
    if (nextURL){
        let next = await fetch(urlRoot+nextURL).then(res=>res.text())
        ad(urlRoot+nextURL)
    }
    return data
}
ad()

复制代码

以上所述就是小编给大家介绍的《node.js爬虫中关村在线电瓶车信息》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

我是90后，我是创业家

腾讯互联网与社会研究院 / 华章图书 / 2015-1-1 / 48.00元

第1本揭秘17个90后精彩创业故事他们是：脸萌创始人郭列、北大硕士卖米粉的张天一、微博《我只过1%的生活》短时间转发35万多次的伟大的安妮、备受争议的90后总裁余佳文、节操姐CEO陈桦……17位90后的创业家为你分享他们的创业故事！从这些90后孩子的经历中，还可以看到互联网带来的巨大好处，这又是这一代人的幸运。这些创业者有一个共同特点，即他们在做自己事业的时候，会经常遇到来自家庭和社会的阻......一起来看看《我是90后，我是创业家》这本书的介绍吧!

码农工具

node.js爬虫中关村在线电瓶车信息

简介

步骤

我是90后，我是创业家

SHA 加密

UNIX 时间戳转换

正则表达式在线测试