HtmlSucker 0.0.1 发布,惊恐 —— 红薯又写代码了!!

栏目: 软件资讯 · 发布时间: 8年前

内容简介:全体 OSChina 官方程序员都吓屎了,因为红薯又写代码了。这次他撸了个 HtmlSucker ,这个名字一听就很猥琐有没有。而且其实也没什么卵用,无非就是在不知道 HTML 页面规则的情况下,从一个 HTML 网页中提取文章的...

全体 OSChina 官方 程序员 都吓屎了,因为红薯又写代码了。这次他撸了个 HtmlSucker ,这个名字一听就很猥琐有没有。而且其实也没什么卵用,无非就是在不知道 HTML 页面规则的情况下,从一个 HTML 网页中提取文章的正文信息。用来干嘛呢? 反正肯定跟爬虫有关。

听说第一个版本还很弱智,原理是计算最大文本节点的方式来获取正文信息。(就这也好意思发布一个项目,难道欺负我朝无人吗?)

请大家前往 https://gitee.com/ld/HtmlSucker 吐槽!

Maven:

<dependency>
    <groupId>net.oschina.htmlsucker</groupId>
    <artifactId>HtmlSucker</artifactId>
    <version>0.0.1</version>
</dependency>

示例代码:

public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.parse(url, 20000));
}

【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

代码大全(第2版)

代码大全(第2版)

[美] 史蒂夫·迈克康奈尔 / 金戈、汤凌、陈硕、张菲 译、裘宗燕 审校 / 电子工业出版社 / 2006-3 / 128.00元

第2版的《代码大全》是著名IT畅销书作者史蒂夫·迈克康奈尔11年前的经典著作的全新演绎:第2版不是第一版的简单修订增补,而是完全进行了重写;增加了很多与时俱进的内容。这也是一本完整的软件构建手册,涵盖了软件构建过程中的所有细节。它从软件质量和编程思想等方面论述了软件构建的各个问题,并详细论述了紧跟潮流的新技术、高屋建瓴的观点、通用的概念,还含有丰富而典型的程序示例。这本书中所论述的技术不仅填补了初......一起来看看 《代码大全(第2版)》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具