python3 正则分组-CFANZ编程社区

Python3 正则分组

引言

在正则表达式中，分组是一种非常有用的功能。使用分组可以提取匹配的子字符串，并对其进行进一步处理。Python3的re模块提供了支持正则分组的方法。本文将介绍正则表达式中分组的概念、语法和用法，并通过代码示例进行演示。

正则表达式中的分组

分组是由括号来标识的，可以将括号内的表达式视为一个整体。分组提供了以下几个主要的功能：

提取子字符串：使用分组可以提取匹配的子字符串，方便后续的处理和分析。
分组引用：分组可以在后续的正则表达式中引用，以实现更复杂的匹配逻辑。
分组捕获：分组可以捕获匹配的内容，在匹配成功后可以通过分组的编号或名称获取。

分组语法

分组语法使用括号来标识，可以包含任意合法的正则表达式。下面是一些常见的分组语法示例：

普通分组：使用小括号 ( ) 来表示普通分组，例如 (abc)。
非捕获分组：使用 (?: ) 来表示非捕获分组，不会捕获分组中的内容，例如 (?:abc)。
命名分组：使用 (?P<name> ) 来表示命名分组，可以通过名称获取捕获的内容，例如 (?P<group_name>abc)。

提取子字符串

使用分组可以提取匹配的子字符串，方便后续的处理和分析。可以通过 group(index) 方法或 group(name) 方法来获取分组中的内容。下面是一个示例：

import re

# 匹配手机号码，并提取区号和号码
pattern = r'(\d{3})-(\d{8})'
phone_number = '010-12345678'

match = re.match(pattern, phone_number)
area_code = match.group(1)
phone = match.group(2)

print(area_code)  # 输出：010
print(phone)  # 输出：12345678

分组引用

分组引用是指在后续的正则表达式中使用分组的内容。可以通过 \index 或 \name 的方式引用分组。下面是一个示例：

import re

# 匹配html标签，并提取标签内的内容
pattern = r'<(\w+)>(.*?)<\/\1>'
html = '<p>This is a paragraph.</p>'

match = re.match(pattern, html)
tag_name = match.group(1)
content = match.group(2)

print(tag_name)  # 输出：p
print(content)  # 输出：This is a paragraph.

分组捕获

分组捕获是指通过分组捕获匹配的内容，在匹配成功后可以通过分组的编号或名称获取。下面是一个示例：

import re

# 匹配日期，并提取年、月、日
pattern = r'(\d{4})-(\d{2})-(\d{2})'
date = '2021-01-01'

match = re.match(pattern, date)
year = match.group(1)
month = match.group(2)
day = match.group(3)

print(year)  # 输出：2021
print(month)  # 输出：01
print(day)  # 输出：01