Pandas对文本数据处理

栏目: 数据库 · 发布时间: 7年前

内容简介：在处理数据的时候,对数值型的数据处理还是比较方便的,但是有时候数值型数据出现问题后就会比较头痛了,因为文本数据的排列组合可是有很多很多的,今天我们就学习一下如何对文本数据进行处理,这样我们接下来在工作中遇到了这些情况就可以少掉一下头发啦。

Pandas对文本数据处理

在处理数据的时候,对数值型的数据处理还是比较方便的,但是有时候数值型数据出现问题后就会比较头痛了,因为文本数据的排列组合可是有很多很多的,今天我们就学习一下如何对文本数据进行处理,这样我们接下来在工作中遇到了这些情况就可以少掉一下头发啦。

Pandas对文本数据处理

一、str属性

文本数据也就是我们常说的字符串,pandas为series提供了str属性,通过它可以方便对每个元素进行操作。

Pandas对文本数据处理

为了防止数据被弄坏,我们先预留一个备份以防万一。

Pandas对文本数据处理

这里我们是不能使用backup_user_info = user_info的因为这样的话一个更改另外一个也会更改。

在之前我们也已经了解过,在对series中每个元素处理时,我们可以使用map或apply方法,比如我们想把星球列下面的地球和外星转换为英文,可以使用下面的方式。

Pandas对文本数据处理

这时候我们在将表恢复成原来的样子。

Pandas对文本数据处理

将哪个星球列下的星球改为大写的英文后再改为小写

首先更改为英文

Pandas对文本数据处理

然后设置一个函数,将星球改为大写,原理为upper()方法

Pandas对文本数据处理

然后在设置为小写,原理为lower方法

Pandas对文本数据处理

给英雄们的身高加上一个单位

Pandas对文本数据处理

我们通过str属性来访问之后用到的方法名与 Python 内置的字符串的方法名一样。并且能够自动排除缺失值。我们再来试试其他一些方法。例如，统计每个字符串的长度。

Pandas对文本数据处理

将cm替换成空白的字符串

Pandas对文本数据处理

将身高列的元素类型转换为整数型

Pandas对文本数据处理

生成一个新的列,列名为姓名的长度,元素为英雄姓名的长度(len方法)

Pandas对文本数据处理

查看表的元素类型

Pandas对文本数据处理

将年不年轻列的中的中年属性更改为中老年属性

Pandas对文本数据处理

查看城市列中每个元素有几个字

Pandas对文本数据处理

查看年不年轻列中每个元素是否有轻这个字符串

Pandas对文本数据处理

二、替换和分隔

使用.srt属性也支持替换与分割操作。先来看下替换操作，例如：将大写的R转换为小写的r。

Pandas对文本数据处理

将列中的数据进行分隔

Pandas对文本数据处理

将是否年轻按年进行分隔,结果如上所述。

分割列表中的元素可以使用 get 或 [] 符号进行访问：

Pandas对文本数据处理

比如说电影的主演有很多人, 可能是用逗号, 或者/ 进行分割, 这是可以用这种方法转换成列表

在表中添加一列英雄的爱人列

Pandas对文本数据处理

Pandas对文本数据处理

将爱人列以,号分隔

Pandas对文本数据处理

这时候就可以让某一行的这个元素以列表表现出来。

Pandas对文本数据处理

将索引列改为英雄姓名,并查看蜘蛛侠和灭霸的爱人

Pandas对文本数据处理

三、提取子串

既然是在操作字符串，很自然的大家可能会想到是否可以从一个长的字符串中提取出子串。答案是可以的。

1、提取第一个匹配的子串

extract方法接受一个正则表达式并至少包含一个捕获组，指定参数 expand=True可以保证每次都返回DataFrame。例如，现在想要匹配空字符串前面的所有的字母，可以使用如下操作：

查看哪位英雄的所在的星球包括E这个字符串

Pandas对文本数据处理

查看哪位英雄所在的城市包括纽这个字符串

Pandas对文本数据处理

四、生成哑变量

首先我们先了解一下什么是哑变量:

哑变量原名为虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑，用以反映质的属性的一个人工变量，是量化了的自变量，通常取值为0或1。引入哑变量可使线形回归模型变得更复杂，但对问题描述更简明，一个方程能达到两个方程的作用，而且接近现实。

在pandas中我们可以通过get_dummies 方法可以将字符串转为哑变量，sep 参数是指定哑变量之间的分隔符。

Pandas对文本数据处理

对英雄姓名进行哑变量转换

Pandas对文本数据处理

从结果可以看出,第0行的英雄姓名是蜘蛛侠,第1行的英雄姓名是灭霸,哑变量转换就是将每一个选择匹配哪一行的数据。

对那个星球进行哑变量转换

Pandas对文本数据处理

从结果可以看出,在地球的英雄是第0、2、3、4、6行的,对应的英雄名称为(蜘蛛侠、奇异博士、钢铁侠、蝙蝠侠、黑寡妇)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

社交的本质：扎克伯格的商业秘密

社交的本质：扎克伯格的商业秘密

兰迪•扎克伯格 / 谢天 / 中信出版集团股份有限公司 / 2016-6-1 / CNY 45.00

从发表个人观点到找工作，从交朋友到找伴侣，社会化媒体的广泛应用、互联技术的高速发展已经改变了我们生活的各个领域。 Facebook早期成员之一，兰迪·扎克伯格阐述了社交的本质，并首次披露Facebook的商业策略。她以社交媒体实践者的视角，分享了自己在Facebook负责营销的从业经历与成长故事，以及对互联网和社会未来变化趋势的思考，并给组织和个人提出了解决方案。一起来看看《社交的本质：扎克伯格的商业秘密》这本书的介绍吧!

随机密码生成器

随机密码生成器

多种字符组合密码

HEX HSV 转换工具

HEX HSV 转换工具

HEX HSV 互换工具

HSV CMYK 转换工具

HSV CMYK 转换工具

HSV CMYK互换工具

版权所有，保留一切权利！© 2018-2026 码农网粤ICP备17054400号-3