小 demo:对德文数据进行文本分析

栏目: 数据库 · 发布时间: 7年前

内容简介:昨天做了一个德文数据的词频统计,发来的数据是word文件,如下

昨天做了一个德文数据的词频统计,发来的数据是word文件,如下

小 demo:对德文数据进行文本分析

小 demo:对德文数据进行文本分析

für mich ging es bei einem foto mit präsident erdogan nicht um politik oder um wahlen, sondern darum, das höchste amt des landes meiner familie zu respektieren.“deutsche fußball-fans hatten özil und gündogan das erdogan-foto übel genommen

一开始我以为他发错的数据有问题,不然怎么会 乱码 呢!后来才知道,数据文件没错,德文的有些字符长得比较奇特。让我对word的德文文档做词频统计,按照流程顺序

  1. 读取docx文件的文本数据

  2. 对德文进行词频统计

  3. 输出到csv或者xlsx

小 demo:对德文数据进行文本分析

现在我们已经将任务分成了四个部分,每个部分如果有无法实现的地方,可以百度谷歌,最后将各部分拼接起来,这个任务就完成了。

下面我们开始做吧

读取docx文件

百度搜了一遍,发现有一个 docx 库可以实现读取,而且找到现成的代码可供使用。

docx库的安装方法

安装好docx库之后,我们定义了read_docx函数用来读取docx文件,返回文本内容


我们做一个下测试,试着读取一下

Özil verteidigt seinErdogan-Foto.docx

file = 'Özil verteidigt sein Erdogan-Foto.docx'

te  text = read_docx(file=
)

运行结果

对德文进行词频

我直接在github上搜索德文切词库找到 SoMaJo 库,安装方法

分词的代码也找到了,直接定义为 segment函数

我们试试segment函数是否能正常运行

运行结果

输出结果

将结果保存到xlsx文件中,第一列是词语,第二列是词频。往常我们都是保存到csv文件中,但是发现用excel打开csv时,德文真的乱码了。那些奇怪的字符被更奇怪的乱码替换了。我直接google搜

how toexportgermanintoexcelusingpython

得到下面的结果 小 demo:对德文数据进行文本分析

搜索结果的第一个结果里找到我需要的代码。我这里定义为to_xlsx函数

在这里我们测试下 to_xlsx函数,看看能否输出xlsx。

我们打开 output.xlsx 文件,如下图

小 demo:对德文数据进行文本分析

小 demo:对德文数据进行文本分析

完美!

现在我们将上面的代码组装起来

精选文章

argparse模块用法实例详解

使用 Python 制作WORD报告

使用Pandas、Jinja和WeasyPrint制作pdf报告

pkuseg:领域细分的中文分词工具

用Python自动化生成倒计时图片

为什么你要为2020,而不是2019做计划?

如何让python代码显示进度信息?

我是如何通过python挣外快的

PySimpleGUI: 开发自己第一个软件

自然语言处理之LDA主题模型

100G 文本分析语料资源(免费下载)

后台回复“20190218”,得到本文项目源码。                   

支持原创,记得手动点赞 小 demo:对德文数据进行文本分析


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

解码宇宙

解码宇宙

(美) 塞费 / 隋竹梅 / 上海科技教育出版社 / 2010-4 / 26.00元

《解码宇宙:新信息科学看天地万物》:宇宙,或许就是一台庞大的计算机。这是查尔斯·塞费在《解码宇宙:新信息科学看天地万物》中对宇宙做出的结论。作者从信息的特点开始谈起,详细论述了信息论和量子计算,向我们展示了一种不可思议的拜占庭式宇宙的情景,涉及生命的本质、热力学、相对论、量子力学、黑洞、多重宇宙,直至宇宙的命运。《解码宇宙:新信息科学看天地万物》资料翔实,内容丰富多彩,思路清晰,观点明确,读后使人......一起来看看 《解码宇宙》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具