java – 在Lucene中对Word级注释图层进行索引和搜索

栏目: 后端 · 发布时间: 6年前

内容简介:(NLP)工具的其他数据集.对于像男人去商店这样的句子,注释可能看起来像:我想使用Lucene为这些带有注释的文档编制索引,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:查询:Word = Washington,NER = Person
我有一个数据集,在底层文本上有多层注释,例如 part-of-tags , chunks from a shallow parser , name entities ,以及来自各种 natural language processing

(NLP)工具的其他数据集.对于像男人去商店这样的句子,注释可能看起来像:

Word  POS  Chunk       NER
====  ===  =====  ========
The    DT     NP    Person     
man    NN     NP    Person
went  VBD     VP         -
to     TO     PP         - 
the    DT     NP  Location
store  NN     NP  Location

我想使用Lucene为这些带有注释的文档编制索引,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:

查询:Word = Washington,NER = Person

我还想做更复杂的查询,涉及跨不同层的注释的连续顺序,例如找到所有文字,其中有一个单词标记的人,然后是到达的单词,后跟一个单词标记的位置.这样的查询可能如下所示:

查询:“NER =人字=到达字=在NER =位置”

用Lucene来解决这个问题的好方法是什么?无论如何索引和搜索包含结构化标记的文档字段?

有效载荷

一个建议是尝试使用Lucene payloads .但是,我认为有效载荷只能用于调整文档的排名,并且它们不用于选择返回的文档.

后者很重要,因为对于某些用例,包含模式的文档数量确实是我想要的.

此外,仅检查与查询匹配的术语上的有效负载.这意味着有效载荷甚至只能帮助第一个示例查询的排名,Word = Washington,NER = Person,我们只想确保将Washingonton这个词标记为Person.但是,对于第二个示例查询,“NER = Person Word =到达Word =在NER = Location”,我需要检查未指定的标签,从而检查不匹配的条款.


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

JSP 应用开发详解(第二版)

JSP 应用开发详解(第二版)

飞思科技产品研发中心 / 电子工业出版社 / 2004-1-1 / 55.00

本书结合JSP和Servlet的最新规范,从基本的语法和规范入手,以经验为后盾,以实用为目标,以实例为导向,以实践为指导,深入浅出地讲解了JSP 开发中的种种问题。以精简的内容介绍了JSP的语法、Servlet技术、JDBC技术、标签库技术、表达式语言、Struts、JavaServer Face等技术;对于JSP开发中常遇到的典型的难点,专门设置了专题进行集中讨论。本书的最后一篇围绕一个电子商务......一起来看看 《JSP 应用开发详解(第二版)》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具