0
点赞
收藏
分享

微信扫一扫

21 爬虫 - python的 re 模块

兮城 2022-03-23 阅读 56


在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。

有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,所以如果我们要使用原始字符串,只需加一个 ​​r​​ 前缀,示例:

r'chuanzhiboke\t\.\tpython'

re 模块的一般使用步骤如下:

  1. 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象

  2. 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。

  3. 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作

compile 函数

compile 函数用于编译正则表达式,生成一个 Pattern 对象,它的一般使用形式如下:

import re

# 将正则表达式编译成 Pattern 对象
pattern = re.compile(r'\d+')

在上面,我们已将一个正则表达式编译成 Pattern 对象,接下来,我们就可以利用 pattern 的一系列方法对文本进行匹配查找了。

Pattern 对象的一些常用方法主要有:


  • match 方法​:从起始位置开始查找,一次匹配
  • search 方法​:从任何位置开始查找,一次匹配
  • findall 方法​:全部匹配,返回列表
  • finditer 方法​:全部匹配,返回迭代器
  • split 方法​:分割字符串,返回列表
  • sub 方法​:替换




举报

相关推荐

0 条评论