详解 Python3 正则表达式（四）

栏目: Python · 发布时间: 8年前

内容简介：详解 Python3 正则表达式（四）

上一篇：详解 Python 3 正则表达式（三）

本文翻译自： https://docs.python.org/3.4/howto/regex.html

博主对此做了一些批注和修改 ^_^

详解 Python3 正则表达式（四）

像这种情况，我们就可以写一个正则表达式先来匹配一个整个 RFC-822 头，然后利用分组功能，使用一个组来匹配头的名字，另一个组匹配名字对应的值。

批注： RFC-822 是电子邮件的标准格式，当然到这里你还不知道分组要怎么分，不急，请接着往下看......

在正则表达式中，使用元字符 () 来划分组。() 元字符跟数学表达式中的小括号含义差不多；它们将包含在内部的表达式组合在一起，所以你可以对一个组的内容使用重复操作的元字符，例如 *，+，? 或者 {m,n} 。

例如，(ab)* 会匹配零个或者多个 ab：

详解 Python3 正则表达式（四）

使用 () 表示的子组我们还可以对它进行按层次索引，可以将索引值作为参数传递给这些方法：group()，start()，end() 和 span() 。序号 0 表示第一个分组（这个是默认分组，一直存在的，所以不传入参数相当于默认值 0）：

详解 Python3 正则表达式（四）

批注：有几对小括号就是分成了几个子组，例如 (a)(b) 和 (a(b)) 都是由两个子组构成的。

子组的索引值是从左到右进行编号，子组也允许嵌套，因此我们可以通过从左往磾来统计左括号 ( 来确定子组的序号。

详解 Python3 正则表达式（四）

group() 方法可以一次传入多个子组的序号：

详解 Python3 正则表达式（四）

批注： start() 是获得参数子组的开始位置；end() 是获得对应子组的结束位置；span() 是获得对应子组的范围。

我们还特么通过 groups() 方法一次性返回所有的子组匹配的字符串：

详解 Python3 正则表达式（四）

还有一个反向引用的概念需要介绍，反向引用指的是你可以在后面的位置使用先前匹配过的内容，用法是反斜杠加上数字。例如 \1 表示引用前边成功匹配的序号为 1 的子组。

详解 Python3 正则表达式（四）

如果只是搜索字符串，反向引用不会被用到，因为很少有文本格式会这样来重复字符。但是，你很快会发现，在字符串替换的时候，反向引用是非常有用的（深井水）！

批注：注意，在 Python 的字符串中会使用反斜杠加数字的方式来表示数字的值对应的 ASCII 字符，所以在使用反向索引的正则表达式中，我们依然强调要使用原始字符串。

(本文完)

下一篇：详解 Python3 正则表达式（五）

如果你喜欢这篇文章，请通过下方「评分」给我鼓励哦 ^_^

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Parsing Techniques

Dick Grune、Ceriel J.H. Jacobs / Springer / 2010-2-12 / USD 109.00

This second edition of Grune and Jacobs' brilliant work presents new developments and discoveries that have been made in the field. Parsing, also referred to as syntax analysis, has been and continues......一起来看看《Parsing Techniques》这本书的介绍吧!

码农工具

详解 Python3 正则表达式（四）

更多强大的功能

更多元字符

1. I

2. ^

3. $

4. \A

5. \Z

6. \b

7. \B

分组

Parsing Techniques

随机密码生成器

HEX HSV 转换工具

HSV CMYK 转换工具