Zhaoyun's Blog

正则表达式笔记

一、内容表示

1、常规字符，除特殊字符使用斜杠（\）转义

2、点（.），代表除换行符号外的任意字符

3、字符集合，使用匹配中括号中的任意一个字符，如：[aeiou]、[a-zA-Z]

4、特定字符：任意字母数字下划线（\w）、任意空白（\s）、数字（\d）、单词边界（\b）、行头（^）、行尾（$）

5、反义：非字母数字下划线（\W）、非空白（\W）、非数字（\D）、非单词边界（\B）、除特定字符外（[^x]、[^xyz]）

二、重复表示

1、出现 1 次以上（+）

2、出现任意次（*）

3、出现 1 次或不出现（?），注意只现一次的情况下，直接使用内容表示字符，不需要重复表示

4、出现 n 次（{n}）

5、出现 n 次以上（{n,}）

6、出现 m 至 n 次（{m,n}）

三、分组

1、查找IP地址的示例：

(\d{1,3}.){3}\d{1,3 或 \d{1,3}(.\d{1,3}){3}

2、在分组中使用“或”，如以下可限制数字大小的IP地址限定规则

((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)

3、IP地址或域名：

((\d{1,3}.){3}\d{1,3}|([a-zA-Z]+.)+[a-zA-Z]+)

四、后向引用

每个分组会自动拥有一个组号，规则是：从左向右，以分组的左括号为标志，第一个出现的分组的组号为1，第二个为2，以此类推。

查找叠词（如：go go, no no）：

\b(\w+)\b\s+\1\b

你也可以自己指定子表达式的组名。要指定一个子表达式的组名，请使用这样的语法：

(?\w+)(或者把尖括号换成'也行：(?'name'\w+)),这样就把\w+的组名指定为name了。

要反向引用这个分组捕获的内容，你可以使用\k,所以上一个例子也可以写成这样：

\b(?\w+)\b\s+\k\b 或 \b(?'g1'\w+)\b\s+\k'g1'\b

其实,组号分配还不像我刚说得那么简单：

分组0对应整个正则表达式，实际上组号分配过程是要从左向右扫描两遍的：

第一遍只给未命名组分配，第二遍只给命名组分配－－因此所有命名组的组号都大于未命名的组号

你可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权．

五、零宽断言

(?=exp)也叫零宽度正预测先行断言，它断言自身出现的位置的后面能匹配表达式exp。

比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I’m singing while you’re dancing.时，它会匹配sing和danc。

(?<=exp)也叫零宽度正回顾后发断言，它断言自身出现的位置的前面能匹配表达式exp。

比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

假如你想要给一个很长的数字中每三位间加一个逗号(当然是从右边加起了)，你可以这样查找需要在前面和里面添加逗号的部分：

((?<=\d)\d{3})+\b，用它对1234567890进行查找时结果是234567890。

使用这个表示式：(?<=\d)(\d{3})+\b，似乎更好理解！

下面这个例子同时使用了这两种断言：(?<=\s)\d+(?=\s)匹配以空白符间隔的数字(再次强调，不包括这些空白符)。

六、负向零宽断言

零宽度负预测先行断言(?!exp)，断言此位置的后面不能匹配表达式exp。

如果我们想查找这样的单词–它里面出现了字母q,但是q后面跟的不是字母u，负向零宽断言能解决这样的问题，因为它只匹配一个位置，并不消费任何字符。

现在，我们可以这样来解决这个问题：\b\wq(?!u)\w\b。

同理，我们可以用(?<!exp)，零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp：(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。

一个更复杂的例子：(?<=<(\w+)>).*(?=<\/\1>)匹配不包含属性的简单HTML标签内里的内容。

七、注释

小括号的另一种用途是通过语法(?#comment)来包含注释。例如：2[0-4]\d(?#200-249)

250-5

[01]?\d\d?(?#0-199)。

要包含注释的话，最好是启用“忽略模式里的空白符”选项，这样在编写表达式时能任意的添加空格，Tab，换行，而实际使用时这些都将被忽略。

启用这个选项后，在#后面到这一行结束的所有文本都将被当成注释忽略掉。例如，我们可以前面的一个表达式写成这样：

(?<= # 断言要匹配的文本的前缀

<(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签)

) # 前缀结束

.* # 匹配任意文本

(?= # 断言要匹配的文本的后缀

<\/\1> # 查找尖括号括起来的内容：前面是一个”/”，后面是先前捕获的标签

) # 后缀结束

八、贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。

以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。

这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。

现在看看懒惰版的例子吧：

a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

为什么第一个匹配是aab（第一到第三个字符）而不是ab（第二到第三个字符）？

简单地说，因为正则表达式有另一条规则，比懒惰／贪婪规则的优先级更高：最先开始的匹配拥有最高的优先权。

表5.懒惰限定符

*? 重复任意次，但尽可能少重复

+? 重复 1 次或更多次，但尽可能少重复

?? 重复 0 次或 1 次，但尽可能少重复

{n,m}? 重复 n 到 m 次，但尽可能少重复

{n,}? 重复 n 次以上，但尽可能少重复

九、平衡组/递归匹配

这里介绍的平衡组语法是由.Net Framework支持的；其它语言／库不一定支持这种功能，或者支持此功能但需要使用不同的语法。

有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构，这时简单地使用(.+)则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式，懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等，比如( 5 / ( 3 + 2 ) ) )，那我们的匹配结果里两者的个数也不会相等。

有没有办法在这样的字符串里匹配到最长的，配对的括号之间的内容呢？

为了避免(和(把你的大脑彻底搞糊涂，我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx <aa aa> yy这样的字符串里，最长的配对的尖括号内的内容捕获出来？

这里需要用到以下的语法构造：

(?’group’) 把捕获的内容命名为group,并压入堆栈(Stack)

(?’-group’) 从堆栈上弹出最后压入堆栈的名为group的捕获内容，如果堆栈本来为空，则本分组的匹配失败

(?(group)yes

no) 如果堆栈上存在以名为group的捕获内容的话，继续匹配yes部分的表达式，否则继续匹配no部分

(?!) 零宽负向先行断言，由于没有后缀表达式，试图匹配总是失败

如果你不是一个程序员（或者你自称程序员但是不知道堆栈是什么东西），你就这样理解上面的三种语法吧：

第一个就是在黑板上写一个”group”，

第二个就是从黑板上擦掉一个”group”，

第三个就是看黑板上写的还有没有”group”，如果有就继续匹配yes部分，否则就匹配no部分。

我们需要做的是每碰到了左括号，就在压入一个”Open”,每碰到一个右括号，就弹出一个，到了最后就看看堆栈是否为空

－－如果不为空那就证明左括号比右括号多，那匹配就应该失败。

正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符)，尽量使整个表达式得到匹配。

< #最外层的左括号

[^<>]* #最外层的左括号后面的不是括号的内容

(

(?’Open’<) #碰到了左括号，在黑板上写一个”Open”

[^<>]* #匹配左括号后面的不是括号的内容

(

(?’-Open’>) #碰到了右括号，擦掉一个”Open”

[^<>]* #匹配右括号后面不是括号的内容

(?(Open)(?!)) #在遇到最外层的右括号前面，判断黑板上还有没有没擦掉的”Open”；如果还有，则匹配失败

> #最外层的右括号

平衡组的一个最常见的应用就是匹配HTML,下面这个例子可以匹配嵌套的<div>标签：

<div[^>]>[^<>](((?’Open’<div[^>]>)[^<>])+((?’-Open’</div>)[^<>])+)(?(Open)(?!))</div>.

十、尚未讨论的语法

\a 报警字符(打印它的效果是电脑嘀一声)

\b 通常是单词分界位置，但如果在字符类里使用代表退格

\t 制表符，Tab

\r 回车

\v 竖向制表符

\f 换页符

\n 换行符

\e Escape

\0nn ASCII代码中八进制代码为nn的字符

\xnn ASCII代码中十六进制代码为nn的字符

\unnnn Unicode代码中十六进制代码为nnnn的字符

\cN ASCII控制字符。比如\cC代表Ctrl+C

\A 字符串开头(类似^，但不受处理多行选项的影响)

\Z 字符串结尾或行尾(不受处理多行选项的影响)

\z 字符串结尾(类似$，但不受处理多行选项的影响)

\G 当前搜索的开头

\p{name} Unicode中命名为name的字符类，例如\p{IsGreek}

(?>exp) 贪婪子表达式

(?-exp) 平衡组

(?im-nsx:exp) 在子表达式exp中改变处理选项

(?im-nsx) 为表达式后面的部分改变处理选项

(?(exp)yes

no) 把exp当作零宽正向先行断言，如果在这个位置能匹配，使用yes作为此组的表达式；否则使用no

(?(exp)yes) 同上，只是使用空表达式作为no

(?(name)yes

no) 如果命名为name的组捕获到了内容，使用yes作为表达式；否则使用no

(?(name)yes) 同上，只是使用空表达式作为no

十一、处理选项

IgnoreCase 匹配时不区分大小写。

Multiline 多行模式，更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。

*** 在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.

Singleline 单行模式，更改.的含义，使它与每一个字符匹配（包括换行符\n）。

IgnorePatternWhitespace 忽略表达式中的非转义空白并启用由#标记的注释。

ExplicitCapture 仅捕获已被显式命名的组。