通用网页正文抽取 cx-extractor

码农软件 · 软件分类 · HTML解析器 · 2019-04-03 06:28:55

软件介绍

基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关

对于Web信息检索来说,网页正文抽取是后续处理的关键。

虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来,并做到在大规模网页范围内通用,这是一个直接关系上层应用的难题。

作者提出了《基于行块分布函数的通用网页正文抽取算法》,首次将网页正文抽取问题转化为求页面的行块分布函数,这种方法不用建立Dom树,不被病态HTML所累(事实上与HTML标签完全无关)。通过在线性时间内建立的行块分布函数图,直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。作者相信简单的事情总应该用最简单的办法来解决这一亘古不变的道理。整个算法实现代码不足百行。但量不在多,在法。

建议使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好处是更新及时,zip包作者不能保证每次修改完后都及时上传 :)


There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)

Version Author Email Institute
Perl 陈鑫 xchen@ir.hit.edu.cn 哈工大信息检索研究中心
Java 王利锋、罗磊 {lfwang,lluo}@ir.hit.edu.cn 哈工大信息检索研究中心
C++ 朱亮 zhuliang@software.ict.ac.cn 中科院计算所高级网络重点实验室
PHP 轩文烽 xwf1788@gmail.com 哈工大智能技术与自然语言处理研究室
C# 张帆 zfannn@gmail.com 中科院信息科学与工程学院

 


如果您正在关注或使用cx-extractor,同时希望在第一时间得到该项目的更新信息,
您可以加入该项目的邮件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3

本软件的使用许可协议:署名-非商业性使用-相同方式共享 (by-nc-sa),新浪微博http://weibo.com/cx3180

本文地址:https://codercto.com/soft/d/2741.html

精通Spring 4.x

精通Spring 4.x

陈雄华、林开雄、文建国 / 电子工业出版社 / 2017-1-1 / CNY 128.00

Spring 4.0是Spring在积蓄4年后,隆重推出的一个重大升级版本,进一步加强了Spring作为Java领域第一开源平台的翘楚地位。Spring 4.0引入了众多Java开发者翘首以盼的基于Groovy Bean的配置、HTML 5/WebSocket支持等新功能,全面支持Java 8.0,最低要求是Java 6.0。这些新功能实用性强、易用性高,可大幅降低Java应用,特别是Java W......一起来看看 《精通Spring 4.x》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具