WebMagic 0.7.0 版本发布，Java 爬虫框架

内容简介：WebMagic 0.7.0 版本发布，Java 爬虫框架

WebMagic 0.7.0 版本发布了，此次更新重写了HttpClientDownloader，完善了POST等其他Http Method的支持，并重写了代理API，更加简单和便于扩展。

POST支持

新的POST API，支持各种RequestBody #513

Request request = new Request("http://xxx/path");
request.setMethod(HttpConstant.Method.POST);
request.setRequestBody(HttpRequestBody.json("{'id':1}","utf-8"));

移除了老的在request.extra中设置NameValuePair的方式
POST请求不再进行去重 #484

代理支持

新的代理APIProxyProvider，支持自由扩展
默认实现SimpleProxyProvider是一个简单的round-robin实现，可以添加任意个数的代理。

HttpClientDownloader httpClientDownloader = new HttpClientDownloader(); SimpleProxyProvider proxyProvider = SimpleProxyProvider.from(new Proxy("127.0.0.1", 1087), new Proxy("127.0.0.1", 1088));
httpClientDownloader.setProxyProvider(proxyProvider);

移除了Site上关于代理配置的setProxy等，代理设置统一到HttpClientDownloader里。

新的SimpleHttpClient

用作简单的单次下载和解析时，使用SimpleHttpClient可以满足需求

SimpleHttpClient simpleHttpClient = new SimpleHttpClient(); GithubRepo model = simpleHttpClient.get("github.com/code4craft/webmagic",GithubRepo.class);

其他改动

为Page中增加状态码和Http头信息 #406
支持Request级别设置Http Header和Cookie
去掉Site.addStartRequest() , 用Spider.addStartRequest()代替 #494
HttpClientDownloader大幅重构，将Request转换抽象到HttpUriRequestConverter(之前继承HttpClientDownloader的实现可能需要做相应修改) #524
将CycleRetry和statusCode的判断逻辑从Downloader中迁移到Spider中 #527
通过Page.isDownloadSuccess而不是Page对象本身为空来判断是否下载失败
为PageModel增加不发现新URL的功能 #575
为Site增加了disableCookieManagement属性，在不想使用cookie时使用 #577

以上所述就是小编给大家介绍的《WebMagic 0.7.0 版本发布，Java 爬虫框架》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Numerical Linear Algebra

Lloyd N. Trefethen、David Bau III / SIAM: Society for Industrial and Applied Mathematics / 1997-06-01 / USD 61.00

Numerical Linear Algebra is a concise, insightful, and elegant introduction to the field of numerical linear algebra.一起来看看《Numerical Linear Algebra》这本书的介绍吧!

码农工具

XML、JSON 在线转换

在线XML、JSON转换工具

XML 在线格式化

在线 XML 格式化压缩工具

HEX CMYK 转换工具

HEX CMYK 互转工具