1.元字符
一个符号匹配一堆内容。
爬虫常用:
\d 能够匹配一个数字(0-9)
\w 能够匹配数字、字母、下划线(0-9,a-z,A-Z,_)
\D ,\W 上述内容取反
[abc] 匹配字母a,b,c
[^abc] 除了a,b,c
. 除了换行符以外的其他所有内容都可以匹配(没错,最前面有个点)
2.量词
用于控制前面元字符出现的频次。
+:前面的元字符出现1次或多次
*:前面的元字符出现0次或多次,贪婪匹配
?:前面的元字符出现0次或1次
3.惰性匹配【重点】
例子:玩会手机游戏,晚上一起玩游戏,打游戏吧!
(1)正则匹配“玩会*.游戏”,匹配结果:
玩会手机游戏,晚上一起玩游戏,打游戏
【找到距离最远的“游戏”】
(2)正则匹配“玩会*.?游戏”,匹配结果:
玩会手机游戏
【惰性匹配,找距离XX最近的内容】
4.常用正则表达式测试网站
https://tool.oschina.net/regex