- 授权协议: WTFPL
- 开发语言: Java
- 操作系统: 跨平台
- 软件首页: https://gitee.com/ld/HtmlSucker
软件介绍
HtmlSucker 是一个用来从一个网页中提取文章信息的小工具包,例如从网页中提取文章标题、作者、发布时间、 封面图以及文章正文内容。基于 jsoup 库进行 HTML 解析。
HtmlSucker 提取文章正文的原理:分析整个 HTML 文档的所有节点,提取其中包含最多文字的的连续节点。
本项目部分代码参考 Crux 项目,例如 HeuristicString 类。
示例代码:
public static void main(String[] args) throws IOException {
String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
System.out.println(HtmlSucker.parse(url, 20000));
}输出结果:
title:撮合平台 1.0.1 发布 暴露远程调用接口 - 开源中国社区 keywords:开源中国,micro-match,撮合平台 1.0.1 发布 暴露远程调用接口 description:撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法 1,挂买单接口 2,挂卖单接口 3,撮合接口 4,撮合结果查询接口 详见:https://my.oschina.net/jeffreyning/blog/1612810... author: date:null image:https://www.oschina.net/img/logo_s2.png content: <p style="margin:0 0 10px 0;"><a data-traceid="news_detail_above_text_link_1" data-tracepid="news_detail_above_text_link" style="color:#A00;font-weight:bold;" href="http://click.aliyun.com/m/18500/" target="_blank">阿里云高性能云服务器,2折起! >>> >>></a> <img src="https://my.oschina.net/img/hot3.png" align="" style="max-height: 32px; max-width: 32px;"></p> <p>撮合平台 1.0.1 发布 暴露远程调用接口并优化撮合条数算法</p> <p>1,挂买单接口</p> <p>2,挂卖单接口</p> <p>3,撮合接口</p> <p>4,撮合结果查询接口</p> <p>详见:<a data-cke-saved-href="https://my.oschina.net/jeffreyning/blog/1612810" href="https://my.oschina.net/jeffreyning/blog/1612810" target="_blank">https://my.oschina.net/jeffreyning/blog/1612810</a></p>
Kubernetes权威指南
龚正、吴治辉、王伟、崔秀龙、闫健勇、崔晓宁、刘晓红 / 电子工业出版社 / 2016-10 / 99
Kubernetes是由谷歌开源的Docker容器集群管理系统,为容器化的应用提供了资源调度、部署运行、服务发现、扩容及缩容等一整套功能。《Kubernetes权威指南:从Docker到Kubernetes实践全接触(第2版)》从一个开发者的角度去理解、分析和解决问题,囊括了Kubernetes入门、核心原理、实践指南、开发指导、高级案例、运维指南及源码分析等方面的内容,图文并茂、内容丰富、由浅入......一起来看看 《Kubernetes权威指南》 这本书的介绍吧!
