内容简介:本文为 AI 研习社编译的技术博客,原标题 :The Data Science Behind Natural Language Processing
本文为 AI 研习社编译的技术博客,原标题 :
The Data Science Behind Natural Language Processing
作者 | John Thuma
翻译 | luyao777
校对 | Pita 审核 | 酱番梨 整理 | 立鱼王
原文链接:
https://medium.com/dataseries/the-data-science-behind-natural-language-processing-69d6df06a1ff
人类交流是能感知到的最迷人的特性之一。作为人类的一员,我知道人类之间如何互动是极其复杂的。我们经常发送和接收错误的信息,或者我们的信息会被他人误解。每天我们都理所当然地认为自己有能力向同事和家人传达意义。我们用各种各样的方式交流,包括交谈和书写符号。人与人之间的交流可以像隔着房间看一眼那么简单。斯坦福大学机器学习教授克里斯•曼宁将沟通描述为“一个离散的、符号的、分类的信号系统”。这是什么意思呢?我认为是我们的感官,如视觉、触觉、听觉,甚至是嗅觉,使我们能够交流。这让我想到了这篇博客的主题:当我们把计算纳入考虑范围时会发生什么?什么是自然语言处理?它是如何工作的?
自然语言处理 (NLP) 是计算机科学和人工智能领域的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。这个领域已经从上世纪50年代就存在了, 你可能听说过的艾伦图灵开发的"图灵测试" 。图灵测试衡量计算机对人类书面问题的反馈。如果一个独立的人不能分辨一个人和一台机器的区别, 那么计算系统就会被评为智能。从上世纪50年代以来, 我们取得了长足的进步, 数据科学和语言学领域也取得了很大进展。本文的其余部分详细介绍了这些算法在自然语言处理领域的一些基本功能,同时将包含一些使用 Python 的代码示例。
标记化
为了开始自然语言处理, 我们将从一些非常简单的文本解析开始。标记化是提取文本流的一个过程, 如一个句子, 并将其分解为其最基本的单词。例如, 取以下句子:“he red fox jumps over the moon .”每个单词都代表一个标记, 其中共有七个。
使用Python标记句子:
myText = ‘The red fox jumps over the moon.’
myLowerText = myText.lower()
myTextList = myLowerText.split()
print(myTextList)
OUTPUT:
[‘the’, ‘red’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘moon’]
词性归类
词性归类用于确定句法功能。在英语中, 词性的主要部分是: 形容词、代词、名词、动词、副词、前置词、连词和感叹词。这是用来推断基于它的单词的意图。例如, PERMIT 一词可以是一个名词和一个动词。动词用法:“I permit you to go to the dance.” 名词用法:“Did you get the permit from the county.”
使用Python分析部分语音 :(使用 NLTK 库)
您可能需要安装 NLTK, 它是用于自然语言处理的 Python 库。关于 NLTK 的说明: https://www.geeksforgeeks.org/part-speech-tagging-stop-words-using-nltk-python/
import nltk
myText = nltk.word_tokenize(‘the red fox jumps over the moon.’)
print(‘Parts of Speech: ‘, nltk.pos_tag(myText))
OUTPUT:
Parts of Speech: [(‘the’, ‘DT’), (‘red’, ‘JJ’), (‘fox’, ‘NN’), (‘jumps’, ‘NNS’), (‘over’, ‘IN’), (‘the’, ‘DT’), (‘moon’, ‘NN’), (‘.’, ‘.’)]
因此, 您可以看到 NLTK 如何将句子分解为各个标记并解释语音的某些部分, 例如 ("fox"、"NN"):
NN 名词, 单数 "fox"
停止词删除
许多句子和段落中包含的单词几乎没有意义或价值。这些词包括 "a"、"and"、"an"和"the"。移除停止词是一个从句子或单词流中删除这些单词的过程。
使用 Python 和 NLTK 进行停止词删除: (点击原文阅读有关 NLTK 的说明)
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = “a red fox is an animal that is able to jump over the moon.” stop_words = set(stopwords.words(‘english’)) word_tokens = word_tokenize(example_sent) filtered_sentence = [w for w in word_tokens if not w in stop_words] filtered_sentence = [] for w in word_tokens: if w not in stop_words: filtered_sentence.append(w) print(filtered_sentence)
OUTPUT:
[‘red’, ‘fox’, ‘animal’, ‘able’, ‘jump’, ‘moon’, ‘.’]
词干提取
词干提取是减少单词噪声的过程,也称为词典归一化。它减少了词形变化。例如, "钓鱼" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的基本含义。另一个很好的例子是 "喜欢" 这个词, 它是许多词的词干, 比如: "likes"、"liked"、"likely"。搜索引擎使用词干分析就是这个原因。在许多情况下, 搜索其中一个词返回在集合中包含另一个单词的文档可能会很有用。
要使用 Python 和 NLTK 库执行词干提取, 请执行以下操作:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
for w in words:
print(w, ” : “, ps.stem(w))
OUTPUT:
(‘likes’, ‘ : ‘, u’like’)
(‘likely’, ‘ : ‘, u’like’)
(‘likes’, ‘ : ‘, u’like’)
(‘liking’, ‘ : ‘, u’like’)
words = [“likes”, “likely”, “likes”, “liking”]
词形还原
词干提取和词形还原是非常相似的, 因为它们能让你找到词根。这称为单词规范化, 两者都可以生成相同的输出结果。然而, 它们的工作方式却大不相同。词干提取试图将单词切分而词形还原给你提供观察单词是名词、动词还是其他词性。让我们以单词 "saw"为例。词干提取会返回 "saw", 词形还原可以返回"see" 或 "saw"。词形还原通常会返回一个可读的词, 而词干提取可能不会。有关差异的示例, 请参见下文。 雷锋网雷锋网 (公众号:雷锋网) 雷锋网
让我们看一个 Python 示例, 它将词干提取与词形还原进行了比较:
from nltk.stem import PorterStemmer
# from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
ps = PorterStemmer()
words = [“corpora”, “constructing”, “better”, “done”, “worst”, “pony”]
for w in words:
print(w, ” STEMMING : “, ps.stem(w), ” LEMMATIZATION “, lemmatizer.lemmatize(w, pos=‘v’))
OUTPUT:
corpora STEMMING : corpora LEMMATIZATION corpora
constructing STEMMING : construct LEMMATIZATION constructing
better STEMMING : better LEMMATIZATION good
done STEMMING : done LEMMATIZATION done
worst STEMMING : worst LEMMATIZATION bad
pony STEMMING : poni LEMMATIZATION pony
总结
语言学是对语言、形态学、句法、语音和语义学的研究。包括数据科学和计算在内的这一领域在过去60年里已经进行了爆炸式的发展。我们刚刚在 NLP 中探索了一些非常简单的文本分析功能。Google、Bing 和其他搜索引擎利用这项技术帮助您在万维网上查找信息。想想看, 让 Alexa 播放你最喜欢的歌曲或者 Siri 是如何帮助你指路。这都是因为 NLP。计算中的自然语言不是噱头或玩具。NLP是我们生活中无缝计算的未来。
Arcadia Data刚刚发布了5.0 版, 其中包括我们称之为 Search Based BI的自然语言查询功能。它使用了之前描述的一些数据科学和文本分析。查看我们关于Search Based BI工具的视频可了解更多信息: SEARCH-BASED BI
原文转载:https://www.arcadiadata.com/blog/the-data-science-behind-natural-language-processing/
想要继续查看该篇文章相关链接和参考文献?
点击 【 自然语言处理背后的数据科学 】 即可访问:
https://ai.yanxishe.com/page/TextTranslation/1641
AI研习社今日推荐: AI入门、大数据、机器学习免费教程
35本世界顶级原本教程限时开放,这类书单由知名数据科学网站 KDnuggets 的副主编,同时也是资深的数据科学家、深度学习技术爱好者的Matthew Mayo推荐,他在机器学习和数据科学领域具有丰富的科研和从业经验。
点击链接即可获取: https://ai.yanxishe.com/page/resourceDetail/417
雷锋网原创文章,未经授权禁止转载。详情见 转载须知 。
以上所述就是小编给大家介绍的《自然语言处理背后的数据科学》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Java学习指南(第4版)(上下册)
Patrick Niemeyer、Daniel Leuck / 李强、王建新、吴戈 / 人民邮电出版社 / 2014-7 / 128.00元
《Java学习指南(第4版)(上、下册)》是畅销Java学习指南的最新版,详细介绍了Java 6和Java 7的语言特性和API。本书全面介绍了Java的基础知识,力图通过完备地介绍Java语言、其类库、编程技术以及术语,从而成为一本名符其实的入门级图书。 《Java学习指南(第4版)(上、下册)》加入了从Java 6和Java 7发布以后的变化,包括新的语言功能、并发工具(Fork-Joi......一起来看看 《Java学习指南(第4版)(上下册)》 这本书的介绍吧!