这是一个爬虫—爬取天眼查网站的企业信息

栏目: Python · 发布时间: 7年前

内容简介：这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序注意:这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多，

爬虫简介

这是一个爬虫—爬取天眼查网站的企业信息

这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序

注意:这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多， 适合刷解析技能的熟练度 ，所以高手勿进

代码已经上传到 GitHub 上，有用还请给个星

python版本：python2.7

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

爬虫思路：

这是一个爬虫—爬取天眼查网站的企业信息

先获取需要采集信息的公司：
1. 从数据库中获取
2. 获取字段：etid，etname
3. 将获取的数据存储的状态表中
4. 从状态表中获取数据，并更新状态表
拼接初始URL：
1. 将etname和初始url进行拼接，获得初始网址
2. 将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析初始一级页面：
1. 验证查询的公司是否正确（？？）
2. 获取二级页面url
3. 将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析二级页面：
1. 获取的信息待定
将公司的信息存储到数据库中：
1. 建表
2. 存储信息

所建的表：

这是一个爬虫—爬取天眼查网站的企业信息

企业主要信息： et_host_info
工商信息： et_busi_info
分支机构信息： et_branch_office
软件著作权信息： et_container_copyright_info
网站备案信息： et_conrainer_icp_info
对外投资信息： et_foreign_investment_info
融资信息： et_rongzi_info
股东信息： et_stareholder_info
商标信息： et_trademark_info
微信公众号信息：et_wechat_list_info
状态表： et_name_status

看一下部分的结果图：

这是一个爬虫—爬取天眼查网站的企业信息

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

淘宝、天猫电商运营百科全书

刘涛 / 电子工业出版社 / 2016-7 / 59.00元

有人说淘宝、天猫上90%的卖家不赚钱，我认为说得有点大了。因为如果说大家都不赚钱或者在亏钱，为什么去年在做店铺的卖家，今年还在继续？那些不赚钱的卖家，多数是没意识到市场的变化，还在用原来的套路运营店铺。市场在变，但卖家的思路却没有转变，不赚钱也在情理之中，因为淘宝、天猫的玩法变了。做店铺就是好比一场“打怪”升级的游戏，每次的升级都需要强大的装备与攻略。优胜劣汰，能活下去并且能赚钱的卖家，都是在不停......一起来看看《淘宝、天猫电商运营百科全书》这本书的介绍吧!

码农工具