内容简介:NLTK学习笔记(五):分类和标注词汇
[TOC]
词性标注器
之后的很多工作都需要标注完的词汇。nltk自带英文标注器 pos_tag
import nltk text = nltk.word_tokenize("And now for something compleyely difference") print(text) print(nltk.pos_tag(text))
标注语料库
表示已经标注的标识符: nltk.tag.str2tuple('word/类型')
text = "The/AT grand/JJ is/VBD ." print([nltk.tag.str2tuple(t) for t in text.split()])
读取已经标注的语料库
nltk语料库ue肚脐提供了统一接口,可以不必理会不同的文件格式。格式: 语料库.tagged_word()/tagged_sents()
。参数可以指定categories和fields
print(nltk.corpus.brown.tagged_words())
名词、动词、形容词等
这里以名词为例
from nltk.corpus import brown word_tag = nltk.FreqDist(brown.tagged_words(categories="news")) print([word+'/'+tag for (word,tag)in word_tag if tag.startswith('V')]) ################下面是查找money的不同标注################################# wsj = brown.tagged_words(categories="news") cfd = nltk.ConditionalFreqDist(wsj) print(cfd['money'].keys())
尝试找出每个名词类型中最频繁的名词
def findtag(tag_prefix,tagged_text): cfd = nltk.ConditionalFreqDist((tag,word) for (word,tag) in tagged_text if tag.startswith(tag_prefix)) return dict((tag,list(cfd[tag].keys())[:5]) for tag in cfd.conditions())#数据类型必须转换为list才能进行切片操作 tagdict = findtag('NN',nltk.corpus.brown.tagged_words(categories="news")) for tag in sorted(tagdict): print(tag,tagdict[tag])
探索已经标注的语料库
需要 nltk.bigrams()
和 nltk.trigrams()
,分别对应2-gram模型和3-gram模型。
brown_tagged = brown.tagged_words(categories="learned") tags = [b[1] for (a,b) in nltk.bigrams(brown_tagged) if a[0]=="often"] fd = nltk.FreqDist(tags) fd.tabulate()
自动标注
默认标注器
最简单的标注器是为每个标识符分配统一标记。下面就是一个将所有词都变成NN的标注器。并且用 evaluate()
进行检验。当很多词语是名词时候,它有利于第一次分析并提高稳定性。
brown_tagged_sents = brown.tagged_sents(categories="news") raw = 'I do not like eggs and ham, I do not like them Sam I am' tokens = nltk.word_tokenize(raw) default_tagger = nltk.DefaultTagger('NN')#创建标注器 print(default_tagger.tag(tokens)) # 调用tag()方法进行标注 print(default_tagger.evaluate(brown_tagged_sents))
正则表达式标注器
注意这里规则是固定(由自己决定)。当规则越来越完善的时候,精确度越高。
patterns = [ (r'.*ing$','VBG'), (r'.*ed$','VBD'), (r'.*es$','VBZ'), (r'.*','NN')#为了方便,只有少量规则 ] regexp_tagger = nltk.RegexpTagger(patterns) regexp_tagger.evaluate(brown_tagged_sents)
查询标注器
这里和书里是有差别的,不同于 python 2,注意调试。而查询标注器就是存储最有可能的标记,并且可以设置 backoff
参数,不能标记的情况下,就使用这个标注器(这个过程是 回退
)
fd = nltk.FreqDist(brown.words(categories="news")) cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories="news")) ##############################################python2和3的区别######### most_freq_words = fd.most_common(100) likely_tags = dict((word,cfd[word].max()) for (word,times) in most_freq_words) ####################################################################### baseline_tagger = nltk.UnigramTagger(model=likely_tags,backoff=nltk.DefaultTagger('NN')) baseline_tagger.evaluate(brown_tagged_sents)
N-gram标注
基础的一元标注器
一元标注器的行为和查找标注器很相似,建立一元标注器的技术,为 训练 。
这里我们的标注器只是记忆训练集,而不是建立一般模型,那么吻合很好,但是不能推广到新文本。
size = int(len(brown_tagged_sents)*0.9) train_sents = brown_tagged_sents[:size] test_sents = brown_tagged_sents[size+1:] unigram_tagger = nltk.UnigramTagger(train_sents) unigram_tagger.evaluate(test_sents)
一般的N-gram标注器
N元标注器,就是检索index= n 的 word,并且检索n-N<=index<=n-1 的 tag。即通过前面词的tag标签,进一步确定当前词汇的tag。类似于 nltk.UnigramTagger()
,自带的二元标注器为: nltk.BigramTagger()
用法一致。
组合标注器
很多时候,覆盖范围更广的算法比精度更高的算法更有用。利用 backoff
指明 回退标注器
,来实现标注器的组合。而参数 cutoff
显式声明为int型,则会自动丢弃只出现1-n次的上下文。
t0 = nltk.DefaultTagger('NN') t1 = nltk.UnigramTagger(train_sents,backoff=t0) t2 = nltk.BigramTagger(train_sents,backoff=t1) t2.evaluate(test_sents)
可以发现,和原来比较之后,精确度明显提高
跨句子边界标注
对于句首的单词,没有前n个单词。解决方法:通过已标记的tagged_sents来训练标注器。
基于转换的标注:Brill标注器
较上面的都优秀。实现的思路:以大笔化开始,然后修复细节,一点点进行细致改变。
不仅占用内存小,而且关联上下文,并且根据问题的变小,实时修正错误,而不是一成不变的。当然,在python3和python2的调用有所不同。
from nltk.tag import brill brill.nltkdemo18plus() brill.nltkdemo18()
欢迎进一步交流本博文相关内容:
博客园地址 : http://www.cnblogs.com/AsuraDong/
CSDN地址 : http://blog.csdn.net/asuradong
也可以致信进行交流 : xiaochiyijiu@163.com
欢迎转载, 但 请指明出处 : )
以上所述就是小编给大家介绍的《NLTK学习笔记(五):分类和标注词汇》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 请收好这份NLP热门词汇解读
- Golang基于DFA算法实现敏感词汇过滤
- 分享一次专业领域词汇的无监督挖掘
- Python TfidfVectorizer throw:空词汇;也许文件只包含停用词“
- 某口腔app发现了不友善词汇(f*ckMobile)
- 程序员写简历时必须注意的技术词汇拼写(持续更新...)
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。