内容简介:superl-url是一款开源的,并且功能强大的关键词URL采集工具,可以根据关键词,对搜索引擎内容检索结果的网址内容进行采集。程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~本来几年前就写好了,没什么技术含量,没想到小伙伴的使用需求还蛮大的,不敢私藏~~
superl-url是一款开源的,并且功能强大的关键词URL采集工具,可以根据关键词,对搜索引擎内容检索结果的网址内容进行采集。
程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~
本来几年前就写好了,没什么技术含量,没想到小伙伴的使用需求还蛮大的,不敢私藏~~
立了flag,git的star过200就一定抽时间去升级,这个flag已经实现,目前已经是4.0版本~~ 更新后就在这里发出来了。
优势介绍
1.支持多搜索引擎,很方便添加集成。(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。
2.开源,跨平台,使用 python 开发;
3.做了兼容性优化,同时支持python2和python3;
4.支持自动过滤重复内容,支持过滤标题中存在指定关键词的内容,支持过滤域名;
5.保存方式同时支持本地txt和 mysql 数据库;
6.从搜索引擎采集到的地址,是真实网站地址,不是像百度快照那样的三方地址;
7.多进程同时采集。每个搜索引擎都单独一个进程;
8.可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。
9.可自定义每页采集时间间隔,防止被屏蔽;
运行效果
使用说明
1.安装python2或者python3运行环境;
2.如果提示没有找到库,则需要安装依赖:
如果是python3,则:
pip install ConfigParser
pip install tldextract
如果是Python2,则:
pip install tldextract
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
3.根据自己的需要,修改根目录下的config.cfg配置文件。
配置文件说明
节点 | 参数 | 示例值 | 说明 |
---|---|---|---|
global | save_type | mysql | 保存类型,可选择file或者mysql,如果是file则保存为本地txt |
global | sleep_time | 1 | 每次搜索处理完一页后的等待时间,防止太频繁被搜索引擎屏蔽 |
url | url_type | realurl | 保存文件txt里面显示的url类型。realurl=真实网站地址,baseurl=原始搜索引擎地址,urlparam=带参数的真实网站地址 |
filter | filter_status | True | 是否开启过滤器,如果开启,则过滤域名和标题都不生效 |
filter | filter_domain | True | 是否过滤域名 |
filter | filter_title | True | 是否过滤标题 |
log | write_title | True | 是否显示标题 |
log | write_name | True | 是否显示搜索引擎名称 |
engine | baidu | True | 百度搜索引擎模块是否开启 |
engine | sougou | True | 搜狗模块是否开启 |
engine | so | False | 搜搜模块是否开启 (搜搜现在抓取不到了) |
pagesize | baidu_pagesize | 50 | 每页条数 |
pagesize | sougou_pagesize | 50 | 每页条数 |
pagesize | so_pagesize | 10 | 每页条数 |
mysql | host | 127.0.0.1 | 如果保存类型为Mysql,则此节点必须配置正确 |
mysql | port | 3306 | 端口 |
mysql | user | root | 用户名 |
mysql | password | root | 密码 |
mysql | database | superldb | 数据库名称 |
mysql | table | search_data | 表名称 |
file | save_pathdir | result | 如果保存类型为file,则这里设置的是保存的路径,当前为程序根目录的result文件夹 |
plugin | pr | True | 预留的插件功能,暂时不支持 |
如果保存方式为Mysql,还需要执行以下 sql 创建表:
CREATE TABLE `search_data` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `engine` varchar(20) NOT NULL DEFAULT '', `keyword` varchar(100) NOT NULL DEFAULT '', `baseurl` varchar(255) NOT NULL DEFAULT '', `realurl` varchar(255) NOT NULL DEFAULT '', `urlparam` varchar(255) NOT NULL DEFAULT '', `webtitle` varchar(255) NOT NULL DEFAULT '', `create_time` int(10) NOT NULL, PRIMARY KEY (`id`) ) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;
项目地址 :【 GitHub传送门 】
至于要不要再开发一个JAVA GUI版本的或者 php 写WEB版本的,先观望观望~~
*本文作者:superl,转载请注明来自FreeBuf.COM
以上所述就是小编给大家介绍的《Superl-url:一款开源、强大的关键词URL采集工具》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 宜信开源|UAV心跳机制与容器、进程数据采集
- Superl-url:一款开源、强大的关键词URL采集工具
- 开源 | falcon-log-agent:滴滴开源的用于监控系统的日志采集 agent,可无缝对接 open-falcon
- 图片采集的方向问题
- 日志采集落地方案
- Kubernetes 下日志采集、存储
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
算法交易与套利交易
赵胜民 / 厦门大学出版社 / 2010-9 / 35.00元
《算法交易与套利交易》主要介绍算法交易和一些套利交易的策略,以便于读者对相关方面的内容进行阅读和学习。在《算法交易与套利交易》的第一部分,我们回顾了投资学一些相关的基本内容。其中,前两章介绍了证券投资的收益和风险等特征,以及马可维茨的最优资产配置模型。第3章则介绍了股票投资分析当中常用的资本资产定价模型(CAPM)、套利定价模型(APT),以及因素模型。然后,第4、5章分别讲到了金融证券估值模型、......一起来看看 《算法交易与套利交易》 这本书的介绍吧!