内容简介:数据采集搜索平台 Gather Platform V0.6 发布
新功能:
-
新增 ajax网页渲染器 ,ajax网页轻松采集;
-
升级ES至5.2版本;
-
修正一些BUG;
预编译版本及相关依赖下载地址: https://pan.baidu.com/s/1i4IoEhB 密码:v3jm 。
在线文档地址: https://gsh199449.github.io/gather_platform_pages/
Github地址: https://github.com/gsh199449/spider
码云地址: https://git.oschina.net/gsh199449/spider
Gather Platform 数据抓取平台是一套基于 Webmagic 内核的,具有 Web 任务配置和任务管理界面的数据采集平台,一个轻量级的搜索引擎系统。
5分钟即可部署完毕,半分钟即可完成一个爬虫,开始数据采集. 不需要进行任何编码就可以完成一个功能强大的爬虫.
具有以下功能:
-
根据配置的模板进行数据采集
-
对采集的数据进行NLP处理,包括:抽取关键词,抽取摘要,抽取实体词
-
在不配置采集模板的情况下自动检测网页正文,自动抽取文章发布时间
-
动态字段抽取与静态字段植入
-
已抓取数据的管理,包括:搜索,增删改查,按照新的数据模板重新抽取数据
-
多数据输出方式:Elasticsearch、JSON文本,Redis
以上所述就是小编给大家介绍的《数据采集搜索平台 Gather Platform V0.6 发布》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Visual Thinking
Colin Ware / Morgan Kaufmann / 2008-4-18 / USD 49.95
Increasingly, designers need to present information in ways that aid their audiences thinking process. Fortunately, results from the relatively new science of human visual perception provide valuable ......一起来看看 《Visual Thinking》 这本书的介绍吧!