Python数据抓取（2） —简单网络爬虫的撰写

栏目: Python · 发布时间: 8年前

内容简介：Python数据抓取（2） —简单网络爬虫的撰写

@数据分析-jacky

Python数据抓取（2） —简单网络爬虫的撰写

@数据分析-jacky

全称：Document Object Model Tree，它是一组API，可以跟网页的元素进行互动，使用BeautifulSoup就可以把网页变成一个DOM TREE，我们就可以根据DOM TREE的节点进行操作

Python数据抓取（2） —简单网络爬虫的撰写

@数据分析-jacky

上图的举例，最外面结构是html，是最上层的节点，下面一层是body，里面包含h1和a两个链接，这些就组成了DOM TREE的架构，我们就可以根据这个架构下的某些节点进行互动，我们可以取得h1里面的词，也可以取得a里面的词，这时候我们就可以把数据顺利提取出来；

Python数据抓取（2） —简单网络爬虫的撰写

@数据分析-jacky

这里会显示警告信息，警告信息告诉我们这段代码没有使用到我们的剖析器，这时 python 会预测一个剖析器给我们，如果我们要避免这种警告的产生，我们可以在代码中指明

Python数据抓取（2） —简单网络爬虫的撰写

@数据分析-jacky

如何进一步把上面的文字解开？加上[0],可以去掉中括号，加.text可以把里面的文字取出来

print(header[0].text)

Python数据抓取（2） —简单网络爬虫的撰写

@数据分析-jacky

Python数据抓取（2） —简单网络爬虫的撰写

End.

作者：润禄数据jacky （中国统计网特邀认证作者）

本文为中国统计网原创文章，需要转载请联系中国统计网（小编微信：itongjilove），转载时请注明作者及出处，并保留本文链接。

以上所述就是小编给大家介绍的《Python数据抓取（2） —简单网络爬虫的撰写》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

传统企业，互联网在踢门

刘润 / 中国华侨出版社 / 2014-7 / 42

1、第一本传统企业互联网化的战略指导书,首次提出“互联网加减法”，迄今最清晰的转型公式鉴于目前很多传统企业“老办法不管用，新办法不会用”的现状，本书将用“互联网的加减法” 这个简单模型清晰地说明商业新时代的游戏规则和全新玩法，帮助传统企业化解“本领恐慌” 。 2、小米董事长&CEO 金山软件董事长雷军，新东方教育科技集团董事长兼CEO俞敏洪，复旦大学管理学院院长陆雄文，复旦大学博士、......一起来看看《传统企业，互联网在踢门》这本书的介绍吧!

码农工具

Python数据抓取（2） —简单网络爬虫的撰写

传统企业，互联网在踢门

RGB转16进制工具

MD5 加密

RGB CMYK 转换工具