request停止维护：用node.js实现http网页爬虫抓取，模拟ajax\post请求,大文件上传下载

栏目: IT技术 · 发布时间: 5年前

内容简介：最近 node.js 一个比较出名的 http其实现在node.js的http模块已经非常完善，几行代码就能自己写一个，比如：

最近 node.js 一个比较出名的 http request 模块停止维护了。其实这个模块已经变得非常臃肿，模块依赖过多，体积过大，接口不统一。

其实现在node.js的http模块已经非常完善，几行代码就能自己写一个，比如：

Node.js网页抓取：一个最简单的http请求客户端示例(request client)

不过上面的示例并不支持post和文件下载，只要稍加改动即可。

源代码

var http = require('http')
var https = require('https')
var url = require('url')
var qs = require('querystring')

var filters = []

/*
settings => {
 url: '/sync/list'
 , data: { a,b,c } / stream
 , type: 'qs' / 'json'
 , dataType: 'json' / 'qs' / 'raw' / 'stream'
}

cb => (err, res, {})
*/
var request = function(settings, cb) {
 if (typeof settings == 'string') {
 settings = { url: settings }
 }

 settings.headers = settings.headers || {}

 var data = settings.data || settings.body || settings.json
 var dataType = settings.dataType
 var stream
 var rawData

 if (data && data.pipe) {
 stream = data
 // rawData = data
 } else if (typeof data == 'object') {
 if (settings.type == 'qs') {
 rawData = qs.stringify(data)
 } else {
 rawData = JSON.stringify(data)
 settings.headers['content-type'] = 'application/json'
 }
 } else if (data) {
 rawData = data
 }

 if (rawData) {
 rawData = Buffer.from(rawData)
 settings.headers['content-length'] = rawData.length
 }

 var reqUrl = settings.url
 var urlObj = url.parse(reqUrl)

 var options = {
 hostname : urlObj.hostname
 , port : urlObj.port
 , path : urlObj.path
 , method : settings.method || ((stream || rawData) ? 'POST' : 'GET')
 , headers : settings.headers
 }

 for (var i = 0; i < filters.length; i++) {
 var filter = filters[i]
 filter(settings, options)
 }

 var requestHandler = function(res) {
 var receives = []
 var err = null
 var statusCode = res.statusCode
 var headers = res.headers

 //重定向
 if ((statusCode == 302 || statusCode == 301) && headers.location) {
 options.url = headers.location
 request(options, cb)
 return
 }

 if (statusCode > 300) {
 err = new Error('Request Failed. Status Code: ' + res.statusCode + ' ' + reqUrl)
 }

 //doesn't parse data
 if (dataType == 'stream' || settings.stream) {
 cb && cb(err, res, {})
 return
 }

 res.on('data', function(chunk) {
 receives.push(chunk)
 })

 res.on('end', function() {
 var resData = Buffer.concat(receives).toString()
 if (dataType != 'raw') {
 try {
 resData = dataType == 'qs'
 ? qs.parse(resData)
 : JSON.parse(resData)
 } catch (e) { }
 }

 cb && cb(err, res, resData)
 })
 }

 var req = urlObj.protocol == 'https:'
 ? https.request(options, requestHandler)
 : http.request(options, requestHandler)

 req.on('error', function(e) {
 cb && cb(e, null, {})
 })

 if (stream) {
 stream.pipe(req)
 } else {
 rawData && req.write(rawData)
 req.end()
 }
}

var addFilter = function(filter) {
 if (typeof filter == 'function') {
 filters.push(filter)
 } else {
 console.log('request middware is not a function')
 }
}

module.exports = {
 request : request
 , use : addFilter
}

参数

请求的网址： url: '/sync/list'
请求POST的数据，如果没有则为GET： data: { a,b,c } / stream
请求的数据类型： type: 'qs' / 'json'
返回的数据类型： dataType: 'json' / 'qs' / 'raw' / 'stream'

使用方法

模拟GET

const request = require('./request').request

request({ url: 'http://ourjs.com/home' }, function(err, response, data) {
 console.log(data)
})

模拟POST

指定 data 即可：

request({ url: 'http://ourjs.com/home', data: { abc: 1 } }, function(err, response, data) {
 console.log(data)
})

下载流文件

将请求文件下载到本地，使用流可避免使用进程的缓冲区，可下载大文件

const fs = require('fs')

request({ url: 'http://ourjs.com/home', dataType: 'stream' }, function(err, response, data) {
 let ws = fs.createWriteStream('./ourjs.text')
 response.pipe(ws)
})

文件上传到http request流

为简化操作，提高性能，这里并没有使用HTTP from的文件模式，而是直接将文件流输出到http流，需要在http那端直接将流写入文件。一次仅支持上传一个文件。同样支持大文件上传。

var rs = fs.createReadStream('./ourjs.text')
request({ url: 'http://receive.url', data: rs }, function(err, response, data) {
 console.log(data)
})

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Spring实战（第4版）

Craig Walls 沃尔斯 / 张卫滨 / 人民邮电出版社 / 2016-4-1 / CNY 89.00

《Spring实战（第4版）》是经典的、畅销的Spring学习和实践指南。第4版针对Spring 4进行了全面更新。全书分为四部分。第1部分介绍Spring框架的核心知识。第二部分在此基础上介绍了如何使用Spring构建Web应用程序。第三部分告别前端，介绍了如何在应用程序的后端使用Spring。第四部分描述了如何使用Spring与其他的应用和服务进行集成。《Spring实战（第4......一起来看看《Spring实战（第4版）》这本书的介绍吧!

码农工具

MD5 加密

MD5 加密工具

RGB CMYK 转换工具

RGB CMYK 互转工具