内容简介:这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序注意:这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,
爬虫简介
这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序
注意:这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多, 适合刷解析技能的熟练度 ,所以高手勿进
代码已经上传到 GitHub 上,有用还请给个星
python版本:python2.7
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
爬虫思路:
-
先获取需要采集信息的公司:
- 从数据库中获取
- 获取字段:etid,etname
- 将获取的数据存储的状态表中
- 从状态表中获取数据,并更新状态表
-
拼接初始URL:
- 将etname和初始url进行拼接,获得初始网址
- 将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
-
请求解析初始一级页面:
- 验证查询的公司是否正确(??)
- 获取二级页面url
- 将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
-
请求解析二级页面:
- 获取的信息待定
-
将公司的信息存储到数据库中:
- 建表
- 存储信息
所建的表:
- 企业主要信息: et_host_info
- 工商信息: et_busi_info
- 分支机构信息: et_branch_office
- 软件著作权信息: et_container_copyright_info
- 网站备案信息: et_conrainer_icp_info
- 对外投资信息: et_foreign_investment_info
- 融资信息: et_rongzi_info
- 股东信息: et_stareholder_info
- 商标信息: et_trademark_info
- 微信公众号信息:et_wechat_list_info
- 状态表: et_name_status
看一下部分的结果图:
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 海归开发深圳版“天眼” 人工智能提升人脸识别
- 漏网之鱼何处寻?“天眼”的强大功能捕获北大弒母者!
- t-io 2.0.0 发布 —— 法网天眼第一版
- Masterfit:打造健身房的天眼系统,用AI助力健身事业
- 在“天眼”看到弑母案嫌疑人之前,我们付出了什么?
- 爬虫需谨慎,那些你不知道的爬虫与反爬虫套路!
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
大数据供应链
娜达·R·桑德斯 (Nada R. Sanders) / 丁晓松 / 中国人民大学出版社 / 2015-7-1 / CNY 55.00
第一本大数据供应链落地之道的权威著作,全球顶级供应链管理专家娜达·桑德斯博士聚焦传统供应链模式向大数据转型,助力工业4.0时代智能供应链构建。 在靠大数据驱动供应链处于领先地位的企业中,45% 是零售商,如沃尔玛、亚马逊,而22%是快消企业,如戴尔电脑。他们都前所未有地掌控了自己的供应链。在库存管理、订单履行率、原材料和产品交付上具有更为广阔的视野。利用具有预见性的大数据分析结果,可以使供需......一起来看看 《大数据供应链》 这本书的介绍吧!