- 授权协议: MIT
- 开发语言: Python
- 操作系统: 跨平台
- 软件首页: http://code.google.com/p/tagparser/
软件介绍
很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则. 其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题 的.
这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语言. 只要他是'<'和'>'括起来的标记语言.
分析的方式是'抽'式的.也就是说扫描一个个字符 当遇到一个tag时 也就是遇到一个<>的时候,回调一个函数onGetTag() ,可以重载这个函数做自己的处理.
如遇到回调 onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小写的tag tagstro是源文件的大小写状态
遇到内容 回调 onGetTxt(txtstr) , txtstr是 如:<tag>xxxxxxxxx</tag> xxxxx即内容
使用例子,提取网易新闻页的主要内容,新闻 标题,内容主体: 例如:
p = TagParser()
p.fetchUrl('http://news.163.com/09/0117/04/4VR79MP60001124J.html')
p.printResult()
输出一个网页的新闻.
硅谷增长黑客实战笔记
曲卉 / 机械工业出版社 / 2018-4-10 / 65.00元
增长黑客这个词源于硅谷,简单说,这是一群以数据驱动营销、以迭代验证策略,通过技术手段实现爆发式增长的新型人才。近年来,互联网公司意识到这一角色可以发挥四两拨千斤的作用,因此对该职位的需求也如井喷式增长。 本书作者曾在增长黑客之父肖恩•埃利斯麾下担任增长负责人,用亲身经历为你总结出增长黑客必备的套路、内力和兵法。本书不仅有逻辑清晰的理论体系、干货满满的实践心得,还有Pinterest、SoFi......一起来看看 《硅谷增长黑客实战笔记》 这本书的介绍吧!
