HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！

栏目: 软件资讯 · 发布时间: 8年前

内容简介：全体 OSChina 官方程序员都吓屎了，因为红薯又写代码了。这次他撸了个 HtmlSucker ，这个名字一听就很猥琐有没有。而且其实也没什么卵用，无非就是在不知道 HTML 页面规则的情况下，从一个 HTML 网页中提取文章的...

全体 OSChina 官方程序员都吓屎了，因为红薯又写代码了。这次他撸了个 HtmlSucker ，这个名字一听就很猥琐有没有。而且其实也没什么卵用，无非就是在不知道 HTML 页面规则的情况下，从一个 HTML 网页中提取文章的正文信息。用来干嘛呢？反正肯定跟爬虫有关。

听说第一个版本还很弱智，原理是计算最大文本节点的方式来获取正文信息。（就这也好意思发布一个项目，难道欺负我朝无人吗？）

请大家前往 https://gitee.com/ld/HtmlSucker 吐槽！

Maven:

<dependency>
    <groupId>net.oschina.htmlsucker</groupId>
    <artifactId>HtmlSucker</artifactId>
    <version>0.0.1</version>
</dependency>

示例代码：

public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.parse(url, 20000));
}

【声明】文章转载自：开源中国社区 [http://www.oschina.net]

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Head First Design Patterns—深入淺出設計模式

天瓏

寫應用程式時需要依照需求預先規劃、設計，而設計模式累積了前人的經歷，經由四人幫彙整出一系列的設計模式，以利後人可以套用。本書集合四人幫的23個模式（十幾年前的事）外加這十幾年來新增的一些模式，作者群以詼諧、幽默、圖文並茂、打破傳統著書的方式，由淺入深地詳解了設計模式的精神及重點。全書全部以當紅的 Java 程式語言為範例。本書特點： * 全世界第二本書......一起来看看《Head First Design Patterns—深入淺出設計模式》这本书的介绍吧!

码农工具

HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！

Head First Design Patterns—深入淺出設計模式

URL 编码/解码

UNIX 时间戳转换

RGB HSV 转换