正则表达式

这篇文档主要对正则表达式进行一个较为初步的学习。

<!—more—>

什么是正则表达式

简言之，正则表达式——记录文本规则的代码。

入门

查找hi——\bhi\b
- 忽略大小写可以匹配：hi，Hi，hI，HI，同时也会找出包含这两个字符的单词
- 精确查找\bhi\b，\b表示元字符，代表单词的开头结尾，也即是单词的分界。需要注意的是：\b并不匹配空格，换行或是标点符号，它只是匹配一个位置：它的前一个字符和后一个字符不全是(一个是，一个不是或不存在)\w 。
查找hi，Lucy——\bhi\b.*\bLucy\b
- .：元字符，匹配换行符之外的任意字符
- *：元字符，匹配数量，表示前边的内容可以连续重复使用任意次以使整个表达式得到匹配
- .*：任意数量的不包含换行的字符
- 综上：先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词
- 换行符：\n，ASCII编码是10
0\d\d-\d\d\d\d\d\d\d\d
- \d：元字符，匹配一位数字
- -：不是元字符，只匹配它本身——连字符(或者减号，或者中横线，或者随你怎么称呼它)
- 综上：以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字(也就是中国的电话号
  码。当然，这个例子只能匹配区号为3位的情形)
- 可以简写为：0\d{2}-\d{8}——这里 \d 后面的{2}({8})的意思是前面\d 必须连续重复匹配2次(8次)。

元字符

\s：匹配任意的空白符，包括空格，制表符（Tab)，换行符，中文全角空格
\ba\w*\b：先是某个单词开始处(\b)，然后是字母 a，然后是任意数量的字母或数字 (\w*) ，最后是单词结束处(\b)
\d+：匹配1个或更多连续的数字，+类似于*，但是*匹配重复任意次(可能是0次)，而+则匹配重复1次或更多次
\b\w{6}\b：匹配刚好6个字符的单词
\d{5,12}：如果不使用 ^和$ 的话，\d{5,12}只能保证字符串里包含5到12连续位数字，而不是整个字符串就是5到12位数字。
^\d{5,12}$
- ^：匹配你要用来查找的字符串的开头
- $：匹配结尾
- 这里的{5,12} 和前面介绍过的{2}是类似的，只不过 {2}匹配只能不多不少重复2次，{5,12}则是重复的次数不能少于5次，不能多于12次，否则都不匹配
- 因为使用了^ 和 $ ，所以输入的整个字符串都要用来和 d{5,12} 来匹配，也就是说整个输入必须是5到12个数字
- 如果选中了处理多行的选项， ^和$的意义就变成了匹配行的开始处和结束处。

字符转义——`\`

如果你想查找元字符本身的话，比如你查找., 或者 * ,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和 \* 。当然，要查找\本身，你也得用\\。

regtest\.py匹配 regtest.py
C:\\Windows 匹配 C:\Windows

重复——限定符

限定符：指定数量的代码
Windows\d+：其后跟1个或多个数字
\^\w+：匹配一行的第一个单词(或整个字符串的第一个单词，具体匹配哪个意思得看选项设置)

字符类——`[ ]`

[aeiou]：匹配aeiou中任何一个英文元音字母
[.?!]：匹配标点符号
[0-9]：等价于\d
[a-z0-9A-Z]：等价于\w（不考虑中文）
\(?0\d{2}[) -]?\d{8}：首先是一个转义字符 \( ,它能出现0次或1次? ,然后是一个0，后面跟着2个数字 \d{2}，然后是)或-或空格中的一个，它出现1次或不出现?，最后是8个数字 \d{8}。（存在缺陷）

？？分枝条件——`|`

0\d{2}-\d{8}|0\d{3}-\d{7}
- 一种是三位区号，8位本地号(如 010-12345678 )
- 一种是四位区号，7位本地号( 0376-2233445 )
$?0\d{2}$?[- ]?\d{8}|0\d{2}[- ]?\d{8}：这个表达式匹配 3 位区号的电话号码，其中区号可以用小括号括起来，也可以不用，区号与本地号间可以用连字号或空格间隔，也可以没有间隔。
\d{5}-\d{4}|\d{5}：美国邮编的规则是5位数字，或者用连字号间隔的9位数字。之所以要给出这个例子是因为它能说明一个问题：使用分枝条件时，要注意各个条件的顺序。
- \d{5}|\d{5}-\d{4}：那么就只会匹配5位的邮编(以及9位邮编的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。？？？？

反义

\S+ ：匹配不包含空白符的字符串
<a[^>]+>：匹配用尖括号括起来的以a开头的字符串
- 其中间可以有空白等任意字符，与<a.+>的区别是当一行中有多个>时它只会匹配到第一个>位置处。
注意：最后两个没有\

分组——`( )`

(\d{1,3}\.){3}\d{1,3}：简单的 IP 地址匹配表达式
- 请按下列顺序分析它： \d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字 (\d{1,3})
((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
- 2[0-4]\d：匹配200～249
- 25[0-5]：匹配250～255
- [01]?\d\d?：匹配000～199

分组复用——后向引用（捕获）

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。
默认情况下，每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。
后向引用用于重复搜索前面某个分组匹配的文本。例如， \1 代表分组1匹配的文本。
\b(\w+)\b\s+\1\b：可以用来匹配重复的单词
- 这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b) ，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符(\s+) ，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(\1)
- 自定义子表达式的组名。要指定一个子表达式的组名，请使用这样的语法： (?<Word>\w+)(或者把尖括号换成'也行： (?'Word'\w+)) ,这样就把 \w+ 的组名指定为Word了。要反向引用这个分组捕获的内容，你可以使用 \k<Word> ,所以上一个例子也可以写成这样：\b(?<Word>\w+)\b\s+\k<Word>\b
常用分组语法
- 第三个(?:exp)不会改变正则表达式的处理方式，只是这样的组匹配的内容不会像前两种那样
  被捕获到某个组里面，也不会拥有组号。？？？？

零宽断言——前后位置匹配

所谓零宽断言即进行位置匹配，以找到该位置前面或者后面所需要的匹配内容。类似于\b,\^,$用于指定一个位置，这个位置应该满足一定的条件(即断言)，因此它们也被称为零宽断言。

(?=exp)
- 零宽度正预测先行断言：它断言自身出现的位置的后面能匹配表达式exp。
- \b\w+(?=ing\b)：匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I'm singing while you're dancing. 时，它会匹配sing 和 danc。
(?<=exp)
- 零宽度正回顾后发断言：它断言自身出现的位置的前面能匹配表达式 exp 。
- (?<=\bre)\w+\b：匹配以 re 开头的单词的后半部分(除了re以外的部分)，例如在查找 reading a book 时，它匹配 ading 。
- (?<=\s)\d+(?=\s)：匹配以空白符间隔的数字(再次强调，不包括这些空白符)。

负向零宽断言——当前位置匹配

\b\w*q[^u]\w*\b：匹配包含后面不是字母 u 的字母 q 的单词
- 特殊情况：如果q出现在单词的结尾的话，这个表达式就会出错。这是因为 [^u] 总要匹配一个字符，所以如果 q是单词的最后一个字符的话，后面的[^u] 将会匹配q后面的单词分隔符(可能是空格，或者是句号或其它的什么)，后面的 \w*\b将会匹配下一个单词，于是b\w*q[^u]\w*\b就能匹配整个Iraq fighting。
\b\w*q(?!u)\w*\b
- 零宽度负预测先行断言：断言此位置的后面不能匹配表达式 exp
- \d{3}(?!\d)：匹配三位数字，而且这三位数字的后面不能是数字
- \b((?!abc)\w)+\b：匹配不包含连续字符串abc的单词
(?<!exp)
- 零宽度负回顾后发断言：断言此位置的前面不能匹配表达式exp
- (?<![a-z])\d{7}：匹配前面不是小写字母的七位数字
- (?<=<(\w+)>).*(?=<\/\1>)：匹配不包含属性的简单HTML标签内里的内容
  - (?<=<(\w+)>)指定了这样的前缀：被尖括号括起来的单词(比如可能是 \b)
  - 然后是.*(任意的字符串)
  - 最后是一个后缀(?=<\/\1>)
    - 后缀里的\/ ，它用到了前面提过的字符转义
    - \1 则是一个反向引用（分组），引用的正是捕获的第一组，前面的 (\w+)匹配的内容
  - 整个表达式匹配的是和之间的内容(再次提醒，不包括前缀和后缀本身)。

注释——`(?#comment)`

2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加
空格，Tab，换行，而实际使用时这些都将被忽略
启用这个选项后，在#后面到这一行结束的所有文本都将被当成注释忽略掉。

例如：

(?<= 		# 断言要匹配的文本的前缀
<(\w+)> 	# 查找尖括号括起来的字母或数字(即HTML/XML标签)
) 		    # 前缀结束
.* 		    # 匹配任意文本
(?= 	    # 断言要匹配的文本的后缀
<\/\1>      # 查找尖括号括起来的内容：前面是一个"/"，后面是先前捕获的标签
)           # 后缀结束

贪婪与懒惰

贪婪匹配：当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符；
懒惰匹配：匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?
- 例：a.*b，表达式aabab。前者：aabab；后者：aab。

处理选项

Python 中常用的正则表达式选项

平衡组/递归匹配

有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构，这时简单地使用$.+$ 则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式，懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等，比如( 5 / ( 3 + 2 ) ) ) ，那我们的匹配结果里两者的个数也不会相等。

平衡组语法构造：

(?'group') ：把捕获的内容命名为group,并压入堆栈(Stack)
(?'-group')：从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则

本分组的匹配失败

(?(group)yes|no) ：如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达

式，否则继续匹配no部分

(?!)：零宽负向先行断言，由于没有后缀表达式，试图匹配总是失败

例子：

<                         #最外层的左括号
    [^<>]*                #最外层的左括号后面的不是括号的内容
    (
        (
            (?'Open'<)    #碰到了左括号，在黑板上写一个"Open"
            [^<>]*       #匹配左括号后面的不是括号的内容
        )+
        (
            (?'-Open'>)   #碰到了右括号，擦掉一个"Open"
            [^<>]*        #匹配右括号后面不是括号的内容
        )+
    )*
    (?(Open)(?!))         #在遇到最外层的右括号前面，判断黑板上还有没有没擦掉的"Open"；如果还有，则匹配失败
>                         #最外层的右括号

平衡组的一个最常见的应用就是匹配HTML,下面这个例子可以匹配嵌套的

1	<div[^>]>[^<>](((?'Open'<div[^>]>)[^<>])+((?'-Open'</div>)[^<>])+)(?(Open)(?!))</div>

还有一些没有提到的语法

一些网上的总结图

参考：