Python的HTML文档解析 tagparser

码农软件 · 软件分类 · HTML解析器 · 2019-04-03 10:56:48

授权协议: MIT
开发语言: Python
操作系统: 跨平台
软件首页: http://code.google.com/p/tagparser/

软件介绍

很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则. 其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题的.

这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语言. 只要他是'<'和'>'括起来的标记语言.

分析的方式是'抽'式的.也就是说扫描一个个字符当遇到一个tag时也就是遇到一个<>的时候,回调一个函数onGetTag() ,可以重载这个函数做自己的处理.

如遇到
回调 onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小写的tag tagstro是源文件的大小写状态

遇到内容回调 onGetTxt(txtstr) , txtstr是如:<tag>xxxxxxxxx</tag> xxxxx即内容

使用例子,提取网易新闻页的主要内容,新闻标题,内容主体: 例如:

p = TagParser()
p.fetchUrl('http://news.163.com/09/0117/04/4VR79MP60001124J.html')
p.printResult()

输出一个网页的新闻.

本文地址：https://codercto.com/soft/d/2759.html

码农书籍

Release It!

Michael T. Nygard / Pragmatic Bookshelf / 2007-03-30 / USD 34.95

“Feature complete” is not the same as “production ready.” Whether it’s in Java, .NET, or Ruby on Rails, getting your application ready to ship is only half the battle. Did you design your system to......一起来看看《Release It!》这本书的介绍吧!

码农工具

Python的HTML文档解析 tagparser

软件介绍

Release It!

CSS 压缩/解压工具

在线进制转换器

XML 在线格式化