文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

栏目: 数据库 · 发布时间: 6年前

内容简介：本文给大家介绍几个在使用gensim进行文本挖掘所需了解的基本概念和术语，并提供一些简单的用法示例。enjoy~笔者最近在梳理自己的文本挖掘知识结构，借助gensim、sklearn、keras等库的文档做了些扩充，希望在梳理自身知识体系的同时也能对想学习文本挖掘的朋友有一点帮助，这是笔者写该系列的初衷。

本文给大家介绍几个在使用gensim进行文本挖掘所需了解的基本概念和术语，并提供一些简单的用法示例。enjoy~

笔者最近在梳理自己的文本挖掘知识结构，借助gensim、sklearn、keras等库的文档做了些扩充，希望在梳理自身知识体系的同时也能对想学习文本挖掘的朋友有一点帮助，这是笔者写该系列的初衷。

本文会介绍几个在使用gensim进行文本挖掘所需了解的基本概念和术语，并提供一些简单的用法示例。

在更高层次上，gensim是一种通过检查词汇模式（或更高级别的结构，如语句或文档）来发现文档语义结构（Semantic Structure）的工具。

gensim通过语料库——一组文本文档，并在语料库中生成文本的向量表示（Vector Representation of the Text）来实现这一点。然后，文本的向量表示可用于训练模型——它是用于创建不同的文本数据（蕴含语义）表示的算法。

这三个概念是理解gensim如何工作的关键，所以让我们花一点时间来解释它们的含义。与此同时，我们将通过一个简单的例子来说明每个概念。

一、语料（Corpus）

一个语料库是数字文档的集合（A Collection of Digital Documents）。这个集合是gensim的输入，它将从中推断文档的结构或主题。从语料库中推断出的潜在结构（Latent Structure）可用于将主题分配给先前不存在于仅用于训练的语料库中的新文档。出于这个原因，我们也将此集合称为训练语料库（Training Corpus）。

这个过程不需要人工干预（比如手动给文档打标签）——因为主题分类是无监督的（Unsupervised）（https://en.wikipedia.org/wiki/Unsupervised_learning）。

对于笔者用于示例的语料库，有12个文档，每个文档只有一个语句：

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

这只是一个很小的语料库，其实你可以用其他的语料库进行替代，比如：微信上的文章、微博博文，或者新闻标题等。

收集语料库之后，通常会进行一系列的文本预处理。作为示例，为了简洁起见，笔者仅删除语料库中的停用词和在语料库中只出现一次的词汇。在此过程中，笔者将进行分词操作，将文档分解为由词汇组成的列表（在本例中使用空格作为分隔符）。

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

在继续之前，笔者希望将语料库中的每个词汇与唯一的整数ID相关联。我们可以使用gensim.corpora.Dictionary这个类来完成，这个词典定义了笔者之前预处理后的语料中的词汇。

from gensim import corpora
dictionary = corpora.Dictionary(processed_corpus)
print(dictionary)

Dictionary(14 unique tokens: [‘创新’, ‘商业’, ‘知识图谱’, ‘技术’, ‘数据’]…)

因为笔者给定的语料较小, 只有14个不同的词汇在这个 Dictionary中。对于较大的语料库，词典中会包含成千上万的词汇，数量庞大。

二、向量空间（Vector Space）

为了推断语料库中的潜在结构（Latent Structure），我们需要一种可用于数学操作（比如，加减乘除等运算）的文档表示方法。一种方法是将每个文档表示为向量，有各种用于创建文档的向量表示的方法，其中一个简单的方法是词袋模型（Bag-of-Words Model）。

在词袋模型下，每个文档由包含字典中每个单词的频率计数的向量表示。例如：给定一个包含词汇[‘咖啡’，’牛奶’，’糖果’，’勺子’]的字典，那么，一个由字符串’咖啡牛奶糖果勺子’组成的文档可以用向量表示为[2 ，1，0,0]，其中向量的元素（按顺序）对应文档中出现的“咖啡”，“牛奶”，“糖”和“勺子”。向量的长度是字典中的词汇数。词袋模型的一个主要特性是它完全忽略了编码文档（the Encoded Document ）中的词汇顺序，这就是词袋模型的由来。

我们处理过的语料库中有14个不同的词汇，这意味着语料库中的每个文档将由这个14维向量的词袋模型来表示，我们可以使用字典将分词后的文档转换为14维向量。由此，我们可以看到这些ID对应的词汇： print(dictionary.token2id)

{‘创新’: 0, ‘商业’: 1, ‘知识图谱’: 2, ‘技术’: 3, ‘数据’: 4, ‘金融’: 5, ‘分析’: 6, ‘知识’: 7, ‘管理’: 8, ‘一文’: 9, ‘关键’: 10, ‘企业’: 11, ‘智能’: 12, ‘转型’: 13}

例如，假设我们想要对“知识图谱为企业转型助力”这个语句进行向量化（请注意，该语句不在我们原来的语料库中）。我们可以使用dictionary的doc2bow方法为该语句创建词袋表示，该方法返回词汇计数的稀疏表示：

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

每个元组中的第一个元素对应字典中的词汇ID，第二个条目对应于该词汇的计数。

请注意，原始语料库中没有出现“为”、“助力”，因此它们将不包含于新生成的向量表示中。另请注意，此向量仅包含实际出现在文档中的词汇。因为任何给定文档只包含字典中许多单词中的几个单词，所以未参与向量化的词汇会直接被剔除，以节省空间。

我们可以将整个原始语料库转换为向量列表：

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

请注意，虽然此列表完全保存在内存中，但在大多数的应用场景，你需要更具伸缩性的解决方案（A More Scalable Solution）。幸运的是，gensim允许流式迭代器。后面笔者会谈及。

三、模型（Model）

现在，我们已经对测试语料库进行了向量化，我们可以开始使用 models 对其进行转换了。我们使用模型作为抽象术语，指的是从一个文档表示到另一个文档表示的转换。在gensim中，文档表示为向量，因而模型可以被认为是两个向量空间之间的转换。从训练语料库中学习这种转换的细节。

一个简单的模型示例是TF-IDF。 TF-IDF模型将向量从词袋表示（Bag-of-Words Representation）转换为向量空间，其中频率计数根据语料库中每个单词的相对稀有度（the relative rarity of each word in the corpus）进行加权。

这是一个简单的例子。让我们初始化tf-idf模型，在测试语料库上进行训练，然后对字符串“知识图谱这种技术是企业转型的利器”进行转换：

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

TF-IDF模型再次返回元组列表，每个元组的第一个元素是词汇ID，第二个条目是TF-IDF加权值。注意，对应于“知识图谱”的ID（在训练语料库中出现10次）的加权值低于对应于“转型”的ID（在训练语料库中出现2次）权重值。

gensim提供了许多不同的模型/转换。有关详细信息，请看笔者后续的文章。

#专栏作家

苏格兰折耳喵（微信公众号：Social Listening与文本挖掘），人人都是产品经理专栏作家，数据PM一只，擅长数据分析和可视化表达，热衷于用数据发现洞察，指导实践。

本文原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自Unsplash，基于CC0协议

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

内容算法

闫泽华 / 中信出版社 / 2018-4-30 / 58.00元

近两年来，伴随着BAT纷纷涌入自媒体平台，自媒体发展可谓迎来爆发。自媒体平台火爆起来是从今日头条异军突起而引发的。它是一款基于数据挖掘的推荐引擎产品，为用户推荐有价值的、个性化的信息，是国内移动互联网领域成长最快的产品服务之一。推荐引擎也将迎来高速发展，针对推荐引擎的优化技术也将会迎来新的机遇。本书作者从事推荐引擎相关的内容分发相关工作，在书中对内容推荐系统进行了介绍，书的最后，介绍了自媒......一起来看看《内容算法》这本书的介绍吧!

码农工具

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

一、语料（Corpus）

二、向量空间（Vector Space）

三、模型（Model）

#专栏作家

内容算法

html转js在线工具

RGB HSV 转换

RGB CMYK 转换工具

文本挖掘从小白到精通（一）：语料、向量空间和模型的概念

一 、语料（Corpus）

二 、 向量空间（Vector Space）

三 、 模型（Model）

#专栏作家

内容算法

html转js在线工具

RGB HSV 转换

RGB CMYK 转换工具

一、语料（Corpus）

二、向量空间（Vector Space）

三、模型（Model）