Boilerpipe— 提取HTML正文内容的Java库

栏目: Java · 发布时间: 8年前

内容简介：Boilerpipe— 提取HTML正文内容的Java库

Boilerpipe 是一个能从 HTML 中剔除广告和其他附加信息，提取出目标信息（如正文内容、发布时间）的 Java 库。其算法的基本思想是通过训练获得一个分类器来提取出我们需要的信息。

Boilerpipe 的包结构：

Boilerpipe— 提取HTML正文内容的Java库

boilerpipe，根目录

document，文档包，定义了 boilerpipe 所处理文档数据类型，主要包括 TextDocument 和 TextBlock 。一个 TextDocument 即一个网页，由多个 TextBlock 构成。

lables，标签，每个 TextBlock 都有一个 lable 字段，表示该 TextBlock 的属性（如是不是正文）。

filters，过滤器，定义了多个过滤器，过滤器的作用即对 TextBlock 进行过滤，使用机器学习、统计、启发式方法等数据挖掘算法判断哪些 TextBlock 是所需要的（正文段），给 TextBlock 加上 lable ，去除无关的 TextBlock 。

sax，SAX 解析器，定义了从各种来源获取并解析网页的方法。

extractors，提取器，提取流程的入口。每个 extractor 都定义了自己的提取方法，通过调用不同的 filter 达到不同的处理效果。

conditions，条件判断，判断一个 TextBlock 是否满足特定的条件。

estimators，评估器，评估一个 extractor 对特定 document 的提取效果。

调用关系图示：

Boilerpipe— 提取HTML正文内容的Java库

介绍内容摘自： CSDN

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

深入理解C指针

[美] Richard Reese / 陈晓亮 / 人民邮电出版社 / 2014-2 / 45.00

深入理解C指针和内存管理，提升编程效率！这是一本实战型图书，通过它，读者可以掌握指针动态操控内存的机制、对数据结构的增强支持，以及访问硬件等技术。本书详细阐述了如何在数组、字符串、结构体和函数中使用指针，同时演示了相应的内存模型及其对指针使用的影响。指针为C语言带来了强大的功能和灵活性，却也是C语言中最难啃的一块“骨头”。本书旨在帮读者透彻理解指针，解决这个老大难问题。不论是初学者还是经验......一起来看看《深入理解C指针》这本书的介绍吧!

码农工具

Boilerpipe— 提取HTML正文内容的Java库

深入理解C指针

SHA 加密

UNIX 时间戳转换

正则表达式在线测试