Python数据抓取(2) —简单网络爬虫的撰写

栏目: Python · 发布时间: 8年前

内容简介:Python数据抓取(2) —简单网络爬虫的撰写

Python数据抓取(2) —简单网络爬虫的撰写

Python数据抓取(2) —简单网络爬虫的撰写

@数据分析-jacky

Python数据抓取(2) —简单网络爬虫的撰写

Python数据抓取(2) —简单网络爬虫的撰写

@数据分析-jacky

  • 全称:Document Object Model Tree,它是一组API,可以跟网页的元素进行互动,使用BeautifulSoup就可以把网页变成一个DOM TREE,我们就可以根据DOM TREE的节点进行操作

Python数据抓取(2) —简单网络爬虫的撰写

@数据分析-jacky

  • 上图的举例,最外面结构是html,是最上层的节点,下面一层是body,里面包含h1和a两个链接,这些就组成了DOM TREE的架构,我们就可以根据这个架构下的某些节点进行互动,我们可以取得h1里面的词,也可以取得a里面的词,这时候我们就可以把数据顺利提取出来;

Python数据抓取(2) —简单网络爬虫的撰写

Python数据抓取(2) —简单网络爬虫的撰写

@数据分析-jacky

  • 这里会显示警告信息,警告信息告诉我们这段代码没有使用到我们的剖析器,这时 python 会预测一个剖析器给我们,如果我们要避免这种警告的产生,我们可以在代码中指明

Python数据抓取(2) —简单网络爬虫的撰写

Python数据抓取(2) —简单网络爬虫的撰写

Python数据抓取(2) —简单网络爬虫的撰写

@数据分析-jacky

  • 如何进一步把上面的文字解开?加上[0],可以去掉中括号,加.text可以把里面的文字取出来

print(header[0].text)

Python数据抓取(2) —简单网络爬虫的撰写

@数据分析-jacky

Python数据抓取(2) —简单网络爬虫的撰写

End.

作者:润禄数据jacky (中国统计网特邀认证作者)

本文为中国统计网原创文章,需要转载请联系中国统计网 (小编微信:itongjilove) ,转载时请注明作者及出处,并保留本文链接。


以上所述就是小编给大家介绍的《Python数据抓取(2) —简单网络爬虫的撰写》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

网飞传奇

网飞传奇

[美]吉娜·基廷 / 谭永乐 / 中信出版社 / 2014-1-1 / 42

飞的历史充满了传奇色彩,它的崛起伴随着复杂斗争、幸运转折、个人背叛……它自身的历史比它出租的那些电影还要更富有戏剧性。网飞在1997年建立,而建立的原因仅仅是因为创始人伦道夫和哈斯廷斯没有按时归还租借的DVD,还要缴纳因此而产生的滞纳金。 1999年,网飞公司摒弃了百视达的“每片付租”模式,转而采用了一种订阅模式:用户只需要支付固定费用,就能尽情租片观赏,免去了到期还片日、滞纳金、运费和手续......一起来看看 《网飞传奇》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

MD5 加密
MD5 加密

MD5 加密工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具