这是一个爬虫—爬取天眼查网站的企业信息

栏目: Python · 发布时间: 6年前

内容简介:这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序注意:这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多,

爬虫简介

这是一个爬虫—爬取天眼查网站的企业信息

这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序

注意:这是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多, 适合刷解析技能的熟练度 ,所以高手勿进

代码已经上传到 GitHub 上,有用还请给个星

python版本:python2.7

编码工具:pycharm

数据存储:mysql

爬虫结构:广度爬虫

爬虫思路:

这是一个爬虫—爬取天眼查网站的企业信息

  1. 先获取需要采集信息的公司:

    1. 从数据库中获取
    2. 获取字段:etid,etname
    3. 将获取的数据存储的状态表中
    4. 从状态表中获取数据,并更新状态表
  2. 拼接初始URL:

    1. 将etname和初始url进行拼接,获得初始网址
    2. 将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
  3. 请求解析初始一级页面:

    1. 验证查询的公司是否正确(??)
    2. 获取二级页面url
    3. 将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
  4. 请求解析二级页面:

    1. 获取的信息待定
  5. 将公司的信息存储到数据库中:

    1. 建表
    2. 存储信息

所建的表:

这是一个爬虫—爬取天眼查网站的企业信息

  1. 企业主要信息: et_host_info
  2. 工商信息: et_busi_info
  3. 分支机构信息: et_branch_office
  4. 软件著作权信息: et_container_copyright_info
  5. 网站备案信息: et_conrainer_icp_info
  6. 对外投资信息: et_foreign_investment_info
  7. 融资信息: et_rongzi_info
  8. 股东信息: et_stareholder_info
  9. 商标信息: et_trademark_info
  10. 微信公众号信息:et_wechat_list_info
  11. 状态表: et_name_status

看一下部分的结果图:

这是一个爬虫—爬取天眼查网站的企业信息

这是一个爬虫—爬取天眼查网站的企业信息

这是一个爬虫—爬取天眼查网站的企业信息

这是一个爬虫—爬取天眼查网站的企业信息


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

UNIX网络编程 卷1:套接字联网API(第3版)

UNIX网络编程 卷1:套接字联网API(第3版)

[美]W. 理查德•史蒂文斯(W. Richard Stevens)、比尔• 芬纳(Bill Fenner)、安德鲁 M. 鲁道夫(Andrew M. Rudoff) / 匿名 / 人民邮电出版社 / 2014-6-1 / 129.00

《UNIX环境高级编程(第3版)》是被誉为UNIX编程“圣经”的Advanced Programming in the UNIX Environment一书的第3版。在本书第2版出版后的8年中,UNIX行业发生了巨大的变化,特别是影响UNIX编程接口的有关标准变化很大。本书在保持前一版风格的基础上,根据最新的标准对内容进行了修订和增补,反映了最新的技术发展。书中除了介绍UNIX文件和目录、标准I/......一起来看看 《UNIX网络编程 卷1:套接字联网API(第3版)》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

SHA 加密
SHA 加密

SHA 加密工具