Python高级语法——正则表达式和XPath——学习心得笔记-CFANZ编程社区

Python高级语法——正则表达式和XPath——学习心得笔记

1. 正则表达式（Regular Expression）

正则表达式(Regular Expression)是一种文本模式
包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为"元字符"）
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串
常常用来检索，替换某些模式的文本
正则表达式写法
^ 匹配字符串的开头
$ 匹配字符串的末尾。
. 匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[…] 用来表示一组字符,单独列出：[amk] 匹配 ‘a’，‘m’或’k’
[^…] 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re* 匹配0个或多个的表达式。
re+ 匹配1个或多个的表达式。
re? 匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式

参考以下文章
http://www.runoob.com/regexp/regexp-syntax.html
http://www.runoob.com/python3/python3-reg-expressions.html

字符匹配
python 匹配 “python”.
字符类
实例描述
[Pp]ython 匹配 “Python” 或 “python”
rub[ye] 匹配 “ruby” 或 “rube”
[aeiou] 匹配中括号内的任意一个字母
[0-9] 匹配任何数字。类似于 [0123456789]
[a-z] 匹配任何小写字母
[A-Z] 匹配任何大写字母
[a-zA-Z0-9] 匹配任何字母及数字
[^aeiou] 除了aeiou字母以外的所有字符
[^0-9] 匹配除了数字外的字符
特殊字符类
实例描述
. 匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]’ 的模式。
\d 匹配一个数字字符。等价于 [0-9]。
\D 匹配一个非数字字符。等价于 [^0-9]。
\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w 匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。
\W 匹配任何非单词字符。等价于 ‘[^A-Za-z0-9_]’。

2. Python3中的正则表达式

RE使用大致步骤

compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式pattern对象
通过pattern对象提供一系列的方法对文本进行查找匹配，获得匹配结果，一个match对象
最后通过match对象提供的属性和方法获得信息，根据需要进行下一步操作

re常用函数

看文章http://www.runoob.com/python3/python3-reg-expressions.html
compile 函数用于编译正则表达式

生成一个正则表达式（ Pattern ）对象
供 match() 和 search() 这两个函数使用

re.match函数
尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。
re.match(pattern, string, flags=0)
re.search 扫描整个字符串并返回第一个成功的匹配
re.search(pattern, string, flags=0)
group() 或 groups() 匹配对象函数来获取匹配表达式
re.sub用于替换字符串中的匹配项
re.sub(pattern, repl, string, count=0)
start() 返回匹配开始的位置
end() 返回匹配结束的位置
span() 返回一个元组包含匹配 (开始,结束) 的位置
直接看实例36_1/2/3.py
36_1

# 导入正则表达式的包
import re

# 查找数字
# 编写一个正则表达式的对象
pattern = re.compile(r'\d+')  # 用于匹配至少一个数字
p = pattern
m = p.match('d2kjf349jfd39fak4j42j') # 查找头部，没有匹配
print(m)
m = p.match('d2kjf349jfd39fak4j42j', 5, 15) # 从第6个字符开始匹配到第15个字符结束
# 查找的结果只包含第一次成功的对象，打印出来是349，从第6个开始到第9个截止
print(m)
# 取出匹配到的元素
print(m[0])
print(m.group())
# 打出找出的元素开始和结束的位置
print(m.start(0))
print(m.end(0))
print(m.span(0))

36_2

import re

# re.I忽略大小写
# 两个组，两个组中间有一个空格
p = re.compile(r'([a-z]+) ([a-z]+)', re.I)
m = p.match("I am really love wangxiaojing")
print(m)
# 打印出匹配到的所有对象
print(m.groups())

# 给的参数为0，默认是匹配到的对象，整个组
print(m.group(0))
print(m.start(0))
print(m.end(0))
print(m.span(0))

# 参数为1，组中的第一个对象
print(m.group(1))
print(m.start())
print(m.end(1))
print(m.span(1))

36_3

import re

# 寻找数字
p = re.compile(r'\d+')
m = p.search("one12dfe1266edaf3")
print(type(m))
print(m)

# 查找所有
rst = p.findall("one12dfe1266edaf3")
print(type(rst))
print(rst)


# sub替换案例
phone = "2004-959-559 # 这是一个电话号码"
# 删除注释
num = re.sub(r'#.*$', "", phone)
print("电话号码 : ", num)
# 移除非数字的内容
num = re.sub(r'\D', "", phone)
print("电话号码 : ", num)

re.match和re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；
而re.search匹配整个字符串，直到找到一个匹配。

匹配中文

大部分中文内容表示范围是[u4e00-u9fa5]
看案例36_4
36_4

import re

title = '世界 你好，hello world'

# 匹配中文字符
p = re.compile(r'[\u4e00-\u9fa5]+')
rst = p.findall(title)

print(rst)


# 贪婪和非贪婪
title = u'<div>name</div><div>age</div>'

# .匹配除换行符（\n、\r）之外的任何单个字符
# 贪婪模式
p1 = re.compile(r'<div>.*</div>')
# 非贪婪模式
p2 = re.compile(r'<div>.*?</div>')

m1 = p1.search(title)
print(m1)
print(m1.group())
print(m1.groups())


m2 = p2.search(title)
print(m2)
print(m2.group())
print(type(m2.groups()))

贪婪和非贪婪

贪婪：尽可能多的匹配（*）表示
非贪婪：找到符合条件的最小内容即可，（？）表示
正则默认使用贪婪匹配

3. XPath

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
参考博客
http://www.w3school.com.cn/xpath/index.asp http://www.w3school.com.cn/xpath/xpath_syntax.asp
语法