【Python】正则化表达式和捕获组

原创已于 2025-01-26 10:47:06 修改 · 708 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#python

于 2025-01-26 10:45:24 首次发布

Python 专栏收录该内容

38 篇文章

订阅专栏

正则化表达式

正则表达式（Regular Expression，简称 regex 或 regexp）是一种用来描述字符串模式的工具。它通过一系列的特殊字符组合，定义了一个搜索或匹配字符串的规则，常用于文本搜索、替换和验证。

基本概念

正则表达式的核心思想是通过某种规则来“匹配”或“查找”字符串中的特定部分。它可以用来检查一个字符串是否符合某个模式、提取特定的部分，或替换文本。

常见正则表达式元素

字符匹配：
- a：匹配字符 'a'。
- .：匹配任意单个字符（除了换行符）。
- \d：匹配一个数字，等同于 [0-9]。
- \D：匹配一个非数字字符，等同于 [^0-9]。
- \w：匹配一个单词字符（字母、数字、下划线），等同于 [a-zA-Z0-9_]。
- \W：匹配一个非单词字符，等同于 [^a-zA-Z0-9_]。
- \s：匹配一个空白字符（空格、制表符、换行符等）。
- \S：匹配一个非空白字符。
字符集和范围：
- [abc]：匹配字符 'a'、'b' 或 'c'。
- [a-z]：匹配任何小写字母。
- [0-9]：匹配任何数字。
- [^abc]：匹配除了 'a'、'b' 和 'c' 以外的任何字符。
数量匹配符：
- *：匹配前面的字符 0 次或多次。例如，a* 会匹配空字符串、a、aa、aaa 等。
- +：匹配前面的字符 1 次或多次。例如，a+ 会匹配 'a'、'aa'、'aaa' 等，但不匹配空字符串。
- ?：匹配前面的字符 0 次或 1 次。例如，a? 会匹配空字符串或 'a'。
- {n}：匹配前面的字符恰好 n 次。例如，a{3} 会匹配 'aaa'。
- {n,}：匹配前面的字符至少 n 次。例如，a{2,} 会匹配 'aa'、'aaa'、'aaaa' 等。
- {n,m}：匹配前面的字符至少 n 次，但不超过 m 次。例如，a{2,4} 会匹配 'aa'、'aaa' 或 'aaaa'。
位置匹配符：
- ^：匹配字符串的开始。例如，^a 会匹配以 'a' 开头的字符串。
- $：匹配字符串的结束。例如，a$ 会匹配以 'a' 结尾的字符串。
分组和捕获：
- ()：将模式的一部分括起来，形成一个分组。例如，(abc) 匹配 'abc'，并将 'abc' 捕获为一个分组。
- (?:)：非捕获分组，用来分组但不捕获。例如，(?:abc) 会匹配 'abc'，但不会捕获它。
选择符：
- |：表示“或”操作。例如，a|b 会匹配 'a' 或 'b'。

示例

\d{3}-\d{2}-\d{4}：匹配类似于 123-45-6789 的美国社会保障号码格式。
^\d{5}$：匹配一个精确的五位数字（常用于邮政编码）。
\bword\b：匹配整个单词 'word'，\b 是单词边界。

总结

正则表达式通过结合不同的特殊符号来描述一个字符串的搜索模式。它在文本处理、数据验证（如邮箱格式检查）、文件查找、文本替换等场景中有广泛应用。在 Python 中，re 模块提供了对正则表达式的支持，可以进行匹配、查找、替换等操作。

捕获组

捕获组（Capture Group） 是正则表达式中的一种机制，它允许你将正则表达式中的某部分匹配内容提取出来，通常用于后续的处理或提取。在正则表达式中，捕获组通过圆括号 () 来定义。

捕获组的工作原理

定义捕获组：
- 使用圆括号 () 包裹正则表达式的一部分来定义一个捕获组。捕获组会匹配对应的内容，并将匹配到的部分保存在一个单独的捕获组中。
例如，正则表达式 (abc) 中的 abc 就是一个捕获组。
捕获组的编号：
- 每个捕获组都有一个编号，编号从 1 开始。第一个捕获组是 \1，第二个捕获组是 \2，依此类推。捕获组的编号按照它们在正则表达式中的出现顺序分配。
提取匹配内容：
- 一旦正则表达式成功匹配了字符串，捕获组中匹配的内容将被保存，可以通过编程语言中的方法提取出来，供后续使用。

捕获组的示例

假设有以下文本：

Name: Alice, Age: 30, City: New York

如果你希望从中提取名字、年龄和城市，可以使用以下正则表达式：

import re
text = "Name: Alice, Age: 30, City: New York"
pattern = r"Name: (\w+), Age: (\d+), City: (\w+ \w+)"
match = re.match(pattern, text)
if match:
    print(match.group(1))  # 提取第一个捕获组（名字）
    print(match.group(2))  # 提取第二个捕获组（年龄）
    print(match.group(3))  # 提取第三个捕获组（城市）

解释：

正则表达式 r"Name: (\w+), Age: (\d+), City: (\w+ \w+)" 中包含了三个捕获组：
- (\w+)：匹配一个或多个字母、数字或下划线，捕获名字。
- (\d+)：匹配一个或多个数字，捕获年龄。
- (\w+ \w+)：匹配两个单词（用空格分隔），捕获城市名。

捕获组的输出：

Alice
30
New York

捕获组的其他功能

后向引用（Backreference）：
捕获组不仅可以提取数据，还可以在正则表达式中进行“引用”。例如：
- 正则表达式 (\d+)\1 会匹配两个连续相同的数字，例如 11、22 等。\1 引用了第一个捕获组。

命名捕获组：
在某些编程语言中，捕获组可以有名字，便于更容易地理解和引用。例如：

pattern = r"Name: (?P<name>\w+), Age: (?P<age>\d+), City: (?P<city>\w+ \w+)"
match = re.match(pattern, text)
if match:
    print(match.group('name'))  # 通过捕获组的名称提取内容
    print(match.group('age'))
    print(match.group('city'))