Python网络爬虫《六》-CFANZ编程社区

正则表达式：字符和操作符构成

正则表达式是一个特殊的字符序列，检查一个字符串是否与某种模式匹配。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些方法功能完全一致的函数，这些函数使用一个模式字符串做为它们的第一个参数。

操作符：

模式	描述
^	匹配字符串的开头。Eg：^ab表示ab且在一个字符串开头
$	匹配字符串的末尾。Eg：^ab表示ab且在一个字符串结尾
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	*匹配0个或多个的表达式。Eg : abc表示ab、abc、abcc、abccc...**
re+	匹配1个或多个的表达式。 Eg : abc+表示abc、abcc、abccc...
re?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式 Eg : abc?表示ab、abc
re{n}	扩展前一个字符n次。Eg：ab{2}c表示abbc
re{ n,}	精确匹配n个前面表达式。
re{ n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式 Eg：ab{1,2}c表示abc、abbc
a \| b	匹配a或b
(re)	G匹配括号内的表达式，也表示一个组，分组标记。Eg：（abc）表示abc
(?imx)	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
(?-imx)	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)	类似 (...), 但是不表示一个组
(?imx: re)	在括号中使用i, m, 或 x 可选标志
(?-imx: re)	在括号中不使用i, m, 或 x 可选标志
(?#...)	注释.
(?= re)	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
(?! re)	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
(?> re)	匹配的独立模式，省去回溯。
\w	匹配字母数字及下划线，等价于[A-Za-z0-9]
\W	匹配非字母数字及下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9].
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c
\z	匹配字符串结束
\G	匹配最后匹配完成的位置。
\b	匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
\B	匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
\n, \t, 等.	匹配一个换行符。匹配一个制表符。等
\1...\9	匹配第n个分组的内容。
\10	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

实例：

^[A-Za-z0-9]+$#由26个字母和数字组成的字符串
^-?\d+$#整数形式的字符串
^[0-9]*[1-9][0-9]*$#正整数形式的字符串
[1-9]\d{5}#中国境内邮政编码，6位
[\u4e00-\u9fa5] #匹配中文字符
\d{3}‐\d{8}|\d{4}‐\d{7} #国内电话号码，010-68913536

实例：IP地址字符串形式的正则表达式（IP地址分4段，每段0‐255）

精确写法： (([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5]).){3}([1‐9]?\d|1\d{2}|2[0‐4]\d|25[0‐5])

0‐99： [1‐9]?\d 100‐199: 1\d{2} 200‐249: 2[0‐4]\d 250‐255: 25[0‐5]

Re库的使用：

Re库是Python的标准库，主要用于字符串匹配。

re库采用raw string类型表示正则表达式，表示为：r'text'。例如：r'[1‐9]\d{5}'

raw string是不包含对转义符再次转义的字符串。但是字符串中出现转义符时用raw string。

主要功能函数：

Python网络爬虫《六》_正则表达式

功能函数：

re.search(pattern, string, flags=0)	re.sub(pattern, repl, string, count=0, flags=0)
pattern : 正则表达式的字符串或原生字符串表示； string : 待匹配字符串； flags : 正则表达式使用时的控制标记；	pattern : 正则表达式的字符串或原生字符串表示 repl : 替换匹配字符串的字符串 string : 待匹配字符串 count : 匹配的最大替换次数 flags : 正则表达式使用时的控制标记

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：

修饰符	描述
re.I （re.IGNORECASE）	忽略正则表达式的大小写，[A‐Z]能够匹配小写字符，使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M （re.MULTILINE）	多行匹配，影响 ^ 和 $
re.S （re.DOTALL）	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

Re库的两种用法

函数式用法：一次性操作

rst = re.search(r'[1‐9]\d{5}', 'BIT 100081')

面向对象用法：编译后的多次操作

编译：将符合正则表达式语法的字符串转换成正则表达式特征。

pat = re.compile(r'[1‐9]\d{5}')

rst = pat.search('BIT 100081')

Re库的Match对象

Match对象是一次匹配的结果，包含匹配的很多信息。

Match对象的属性和方法

属性	说明	方法	说明
.string	待匹配的文本	.group(0)	获得匹配后的字符串
.re	匹配时使用的patter对象（正则表达式）	.start()	匹配字符串在原始字符串的开始位置
.pos	正则表达式搜索文本的开始位置	.end()	匹配字符串在原始字符串的结束位置
.endpos	正则表达式搜索文本的结束位置	.span()	返回(.start(), .end())

Re库的贪婪匹配和最小匹配

贪婪匹配（默认）

实例：Re库默认采用贪婪匹配，即输出匹配最长的子串。

match = re.search(r'PY.*N', 'PYANBNCNDN') match.group(0) #'PYANBNCNDN'

最小匹配

实例：

只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配。

match = re.search(r'PY.*?N', 'PYANBNCNDN') match.group(0) #'PYAN'

Python网络爬虫《六》_bc_02

代码实例：

#/usr/bin/env.python
# -*- coding:utf-8 -*-
import re
#方法一：
print "re.seach只匹配整个字符串"
matchSearch = re.search(r'[1‐9]\d{5}','TEX100864 RXT765215',re.M|re.I)
if matchSearch:
    print matchSearch.group(0)
else:
    print "Search None"

print "re.match只匹配字符串开头"
matchMatch = re.match(r'[1‐9]\d{5}','100864TEX RXT765214')
if matchMatch:
    print matchMatch.group(0)
else:
    print "No Match!"
print "re.findall以列表的形式返回全能匹配的子串"
list=[]
list = re.findall(r'[1‐9]\d{5}','100864TEX RXT765214')
print list
print "re.split:以正则表达式的匹配结果进行分割，返回列表类型"
print re.split(r'[1‐9]\d{5}','TEX100864 RXT765214')  #会先去掉第一个匹配的自创
print "re.finditer:返回一个匹配结果的迭代类型，每个迭代元素match对象"
matchfinditer =re.finditer(r'[1‐9]\d{5}','TEX100864 RXT765214')
print matchfinditer
print "re.sub:替换匹配字符串，返回字符串"
stringnew = re.sub(r'：.*$', "无", "我的电话号码：2004-899-338",count=1)
print stringnew
#方法二：
regex = re.compile(r'[1‐9]\d{5}')
matchregex = regex.search('TEX100886 RXT76521')
if matchregex:
    print matchregex.group()
else:
    print "No Search"