反向引用,指把匹配出來的組引用到運算式本身其它地方,比如,在匹配HTML的標記時,我們匹配出一個<a>,我們要把匹配出來的a引用出來,用來找到</a>,這個時候就要用到反向引用。
文法
a、反向引用編號的組,文法為\number
b、反向引用命名的組,文法為\k<name>
舉例
a、匹配成對的HTML標籤
@"<(?<tag>[^\s>]+)[^>]*>.*</\k<tag>>"
b、匹配兩個兩個重疊出現的字元
public static void Main() { string s = "aabbc11asd"; Regex reg = new Regex(@"(\w)\1"); MatchCollection matches = reg.Matches(s); foreach(Match m in matches) Console.WriteLine(m.Value); Console.ReadLine(); } |
返回結果為aa bb 11
輔助匹配組
以下幾種組結構,括弧中的Pattern都不作為匹配結果的一部分進行儲存
1、正聲明(?=)
涵義:括弧中的模式必須出現在聲明右側,但不作為匹配的一部分
public static void Main() { string s = "C#.net,VB.net,PHP,Java,JScript.net"; Regex reg = new Regex(@"[\w\#]+(?=\.net)",RegexOptions.Compiled); MatchCollection mc = reg.Matches(s); foreach(Match m in mc) Console.WriteLine(m.Value); Console.ReadLine(); //輸出 C# VB JScript } |
可以看到匹配引擎要求匹配.net,但卻不把.net放到匹配結果中
2、負聲明(?!)
涵義:括弧中的模式必須不出現在聲明右側
下例示範如何取得一個<a>標籤對中的全部內容,即使其中包含別的HTML tag。
public static void Main() { string newsContent = @"url:<a href=""1.html""><img src=""1.gif"">test<span style=""color:red;"">Regex</span></a>."; Regex regEnd = new Regex(@"<\s*a[^>]*>([^<]|<(?!/a))*<\s*/a\s*>",RegexOptions.Multiline); Console.WriteLine(regEnd.Match(newsContent).Value); //Result: <a href="1.html"><img src="1.gif">test<span style="color:red;">Regex</span></a> Console.ReadLine(); } |
3、反向正聲明(?<=)
涵義:括弧中的模式必須出現在聲明左側,但不作為匹配的一部分
4、反向負聲明(?<!)
涵義:括弧中的模式必須不出現在聲明左側
非回溯匹配
文法:(?>)
涵義:該組匹配後,其匹配的字元不能通過回溯用於後面的運算式的匹配。呵呵,光看這句話肯定搞不懂,我當初為了搞懂這個也花了不少的時間,還是通過執行個體來說明吧:
"www.csdn.net" 可以通過@"\w+\.(.*)\.\w+"來匹配,卻不能通過@"\w+\.(?>.*)\.\w+"來匹配!為什麼呢?
原因是正則匹配是貪婪的,匹配時它會儘可能多的匹配最多的結果,所以,上例兩個正則式中的.*都會把csdn.net匹配完, 這個時候,第一個運算式在開始匹配時發現\.\w+沒得字元給它匹配了,所以它會進行回溯,所謂回溯,就是把.*匹配的結果往回推,回推留出來的字元再用來匹配\.\w+,直到\.\w+匹配成功,整個運算式返回成功的匹配結果。而第二個運算式,因使用的是非回溯匹配,所以,.*匹配完後,不允許通過回溯來匹配\.\w+,所以整個運算式匹配失敗。
請注意,回溯匹配是很浪費資源的一種匹配方式,所以,請盡量避免您的正則式要通過回溯來成功匹配,如上例,可以換成@"\w+\.([^\.]+\.)+\w+"+"。