java – 在Lucene中对Word级注释图层进行索引和搜索

栏目: 后端 · 发布时间: 6年前

内容简介:(NLP)工具的其他数据集.对于像男人去商店这样的句子,注释可能看起来像:我想使用Lucene为这些带有注释的文档编制索引,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:查询:Word = Washington,NER = Person
我有一个数据集,在底层文本上有多层注释,例如 part-of-tags , chunks from a shallow parser , name entities ,以及来自各种 natural language processing

(NLP)工具的其他数据集.对于像男人去商店这样的句子,注释可能看起来像:

Word  POS  Chunk       NER
====  ===  =====  ========
The    DT     NP    Person     
man    NN     NP    Person
went  VBD     VP         -
to     TO     PP         - 
the    DT     NP  Location
store  NN     NP  Location

我想使用Lucene为这些带有注释的文档编制索引,然后在不同的层上执行搜索.简单查询的一个示例是检索华盛顿被标记为人的所有文档.虽然我并不完全致力于表示法,但语法上的最终用户可能会按如下方式输入查询:

查询:Word = Washington,NER = Person

我还想做更复杂的查询,涉及跨不同层的注释的连续顺序,例如找到所有文字,其中有一个单词标记的人,然后是到达的单词,后跟一个单词标记的位置.这样的查询可能如下所示:

查询:“NER =人字=到达字=在NER =位置”

用Lucene来解决这个问题的好方法是什么?无论如何索引和搜索包含结构化标记的文档字段?

有效载荷

一个建议是尝试使用Lucene payloads .但是,我认为有效载荷只能用于调整文档的排名,并且它们不用于选择返回的文档.

后者很重要,因为对于某些用例,包含模式的文档数量确实是我想要的.

此外,仅检查与查询匹配的术语上的有效负载.这意味着有效载荷甚至只能帮助第一个示例查询的排名,Word = Washington,NER = Person,我们只想确保将Washingonton这个词标记为Person.但是,对于第二个示例查询,“NER = Person Word =到达Word =在NER = Location”,我需要检查未指定的标签,从而检查不匹配的条款.


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

網絡社會之崛起

網絡社會之崛起

曼威·柯司特 / 夏鑄九、王志弘 等 / 唐山 / 2000-11 / NT$550

本書解釋了今日重塑世界的兩股強大但相互衝突的潮流:全球化與認同。資訊科技的革命以及資本主義的再結構已經引動了網絡社會,並帶來了策略,除經濟行為的全球化、工作的彈性化與不穩定,以及真實的虛擬文化。但是,伴隨著資本主義的轉化與國家主義的消亡而來的,是集體認同的表達以火力十足的方式竄起。它們挑戰了全球化中的文化單一性以及對於生活、環境的控制。曼威.柯司特在本書中描繪了社會運動的根源、目標以及效果,包括了......一起来看看 《網絡社會之崛起》 这本书的介绍吧!

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

html转js在线工具
html转js在线工具

html转js在线工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具