内容简介:简介 JsoupXpath 是一款纯Java开发的使用xpath解析提取html数据的解析器,针对html解析完全重新实现了W3C XPATH 1.0标准语法,xpath的Lexer和Parser基于Antlr4构建,html的DOM树生成采用Jsoup,故命名为JsoupXpat...
简介
JsoupXpath 是一款纯 Java 开发的使用xpath解析提取html数据的解析器,针对html解析完全重新实现了W3C XPATH 1.0标准语法,xpath的Lexer和Parser基于Antlr4构建,html的DOM树生成采用Jsoup,故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够好用的xpath解析器,故开发了JsoupXpath。JsoupXpath的实现逻辑清晰,扩展方便, 支持完备的W3C XPATH 1.0标准语法,W3C规范:http://www.w3.org/TR/1999/REC-xpath-19991116 ,JsoupXpath语法描述文件Xpath.g4
更新内容
- 修复了 PrecedingSiblingOneSelector 这个函数无效的问题 , 感谢@s24963386贡献!
- 修复 #Issue66 ,函数参数表达式使用的上下文不够全面的问题
- 优化
text()
块节点属性信息,以便更好的支持倒序索引 - 增加
double/long sum(node-set)
函数,计算给定的节点集合中数字节点值的和,计算参数范围内包含非数字内容则计算无效。 - 优化
num()
结果表现,尽量符合用户使用直觉。整数返回整数,浮点数返回浮点数,不再统一只返回浮点数。
相关Test:
@Test
public void issue64And65(){
String content = "<div class='a'>1</div>\n" +
"<div>2</div>\n" +
"<div class='a'>3</div>\n" +
"<div>4</div>\n" +
"<div>5</div>";
JXDocument j = JXDocument.create(content);
Assert.assertEquals("2", j.selNOne("//div[text()='3']/preceding-sibling-one::div/text()").asString());
Assert.assertEquals("4", j.selNOne("//div[text()='3']/following-sibling-one::div/text()").asString());
}
@Test
public void issue66() throws Exception {
JXDocument j = JXDocument.create(FileUtils.readFileToString(new File(loader.getResource("issue66.html").toURI()), Charset.forName("utf8")));
logger.info("{}", j.selN("count(//bookstore/book)"));
logger.info("{}", j.selN("//bookstore/book[position()<count(//bookstore/book)]/price"));
logger.info("{}", j.selN("//bookstore/book[position()<count(//bookstore/book)-1]/price"));
logger.info("{}", j.selN("sum(//bookstore/book/year[num()<2005])"));
logger.info("{}", j.selN("sum(//bookstore/book/price)"));
logger.info("{}", j.selN("sum(//bookstore/book/title)"));
Assert.assertEquals(4,j.selNOne("count(//bookstore/book)").asLong().longValue());
Assert.assertEquals(3,j.selN("//bookstore/book[position()<count(//bookstore/book)]/price").size());
Assert.assertEquals(2,j.selN("//bookstore/book[position()<count(//bookstore/book)-1]/price").size());
Assert.assertEquals(4006,j.selNOne("sum(//bookstore/book/year[num()<2005])").asLong().longValue());
Assert.assertEquals("",j.selNOne("sum(//bookstore/book/title)").asString());
}
写在最后
欢迎大家贡献新特性
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- Java HTML 解析器 jsoup 发布 1.13.1,解析速度显著提升
- Expat 2.2.8 发布,XML 解析器
- MediaInfo 20.03 发布,多媒体文件解析软件
- JsoupXPath v2.0-Beta 发布,HTML 解析器
- Kubernetes 1.12全新发布!新功能亮点解析
- MediaInfo 19.07 发布,多媒体文件解析软件
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
产品心经:产品经理应该知道的60件事(第2版)
闫荣 / 机械工业出版社 / 2016-4 / 69.00
本书第一版出版后广获好评,应广大读者要求,作者把自己在实践中新近总结的10个关于产品的最佳实践融入到了这本新书中。这"10件事"侧重于深挖产品需求和产品疯传背后的秘密,配合之前的"50件事",不仅能帮产品经理打造出让用户尖叫并疯传的产品,还能帮助产品经理迅速全方位提升自己的能力。 本书作者有超过10年的产品工作经验,在互联网产品领域公认的大咖,这本书从产品经理核心素养、产品认知、战略与规划、......一起来看看 《产品心经:产品经理应该知道的60件事(第2版)》 这本书的介绍吧!