通用网页正文抽取 cx-extractor

码农软件 · 软件分类 · HTML解析器 · 2019-04-03 06:28:55

软件介绍

基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

对于Web信息检索来说,网页正文抽取是后续处理的关键。

虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多,在法。

建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好处是更新及时,zip包作者不能保证每次修改完后都及时上传 :)


There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)

Version Author Email Institute
Perl 陈鑫 xchen@ir.hit.edu.cn 哈工大信息检索研究中心
Java 王利锋、罗磊 {lfwang,lluo}@ir.hit.edu.cn 哈工大信息检索研究中心
C++ 朱亮 zhuliang@software.ict.ac.cn 中科院计算所高级网络重点实验室
PHP 轩文烽 xwf1788@gmail.com 哈工大智能技术与自然语言处理研究室
C# 张帆 zfannn@gmail.com 中科院信息科学与工程学院

 


如果您正在关注或使用cx-extractor,同时希望在第一时间得到该项目的更新信息,
您可以加入该项目的邮件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3

本软件的使用许可协议:署名-非商业性使用-相同方式共享 (by-nc-sa),新浪微博http://weibo.com/cx3180

本文地址:https://codercto.com/soft/d/2741.html

SOA & Web 2.0 -- 新商业语言

SOA & Web 2.0 -- 新商业语言

(美)Sandy Carter / 袁月杨、麻丽莉 / 清华大学出版社 / 2007 / 29.80元

在《SOA&Web 2.0:新商业语言》中,Sandy Calter示范了将企业解构为“组件化”业务模式的方法,然后用相互连接的、可重复的并且能快速、轻松、经济地适应各种变化的IT服务来支持该模式。这些技术将帮助IT专家和业务经理达到崭新的运营水平,以开展着眼于市场的创新,这才是最重要的。总而言之,企业必须实现灵活应对。直到最近,技术都一直阻碍着这些目标的实现。正是由于面向服务架构(SOA)、We......一起来看看 《SOA & Web 2.0 -- 新商业语言》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具