内容简介:昨天做了一个德文数据的词频统计,发来的数据是word文件,如下
昨天做了一个德文数据的词频统计,发来的数据是word文件,如下
für mich ging es bei einem foto mit präsident erdogan nicht um politik oder um wahlen, sondern darum, das höchste amt des landes meiner familie zu respektieren.“deutsche fußball-fans hatten özil und gündogan das erdogan-foto übel genommen
一开始我以为他发错的数据有问题,不然怎么会 乱码
呢!后来才知道,数据文件没错,德文的有些字符长得比较奇特。让我对word的德文文档做词频统计,按照流程顺序
-
读取docx文件的文本数据
-
对德文进行词频统计
-
输出到csv或者xlsx
现在我们已经将任务分成了四个部分,每个部分如果有无法实现的地方,可以百度谷歌,最后将各部分拼接起来,这个任务就完成了。
下面我们开始做吧
读取docx文件
百度搜了一遍,发现有一个 docx
库可以实现读取,而且找到现成的代码可供使用。
docx库的安装方法
安装好docx库之后,我们定义了read_docx函数用来读取docx文件,返回文本内容
我们做一个下测试,试着读取一下
Özil verteidigt seinErdogan-Foto.docx
file = 'Özil verteidigt sein Erdogan-Foto.docx'
te text = read_docx(file=
)
运行结果
对德文进行词频
我直接在github上搜索德文切词库找到 SoMaJo
库,安装方法
分词的代码也找到了,直接定义为 segment函数
我们试试segment函数是否能正常运行
运行结果
输出结果
将结果保存到xlsx文件中,第一列是词语,第二列是词频。往常我们都是保存到csv文件中,但是发现用excel打开csv时,德文真的乱码了。那些奇怪的字符被更奇怪的乱码替换了。我直接google搜
how toexportgermanintoexcelusingpython
得到下面的结果
搜索结果的第一个结果里找到我需要的代码。我这里定义为to_xlsx函数
在这里我们测试下 to_xlsx函数,看看能否输出xlsx。
我们打开 output.xlsx
文件,如下图
完美!
现在我们将上面的代码组装起来
精选文章
使用Pandas、Jinja和WeasyPrint制作pdf报告
后台回复“20190218”,得到本文项目源码。
支持原创,记得手动点赞
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 用Flair进行文本分类
- 数组 – 如何使用颜色进行文本着色而不会减慢进程?
- NLP入门(十)使用LSTM进行文本情感分析
- 【技术分享】通过短信进行XSS攻击:在Verizon Message应用中利用文本消息进行攻击
- 从文本中进行关系抽取的几种不同的方法
- 【火炉炼AI】机器学习034-NLP对文本进行分词
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
面向对象分析与设计
Grady Booch、Robert A. Maksimchuk、Michael W. Engel、Bobbi J. Young、Jim Conallen、Kelli A. Houston / 王海鹏、潘加宇 / 人民邮电出版社 / 2009-8 / 79.00元
《面向对象分析与设计(第3版)》是UML创始人Grady Booch的代表作之一,书中介绍的概念都基于牢固的理论基础。同时,《面向对象分析与设计(第3版)》又是一本注重实效的书,面向架构师和软件开发者等软件工程实践者的实际需要。《面向对象分析与设计(第3版)》通过大量例子说明了基本概念,解释了方法,并展示了在不同领域的成功应用。全书分为理论和应用两部分。理论部分深刻剖析了面向对象分析与设计(OOA......一起来看看 《面向对象分析与设计》 这本书的介绍吧!