Regex的3種匹配模式

來源:互聯網
上載者:User

Regex是處理字串的常用工具。在C#中,我們一般使用Regex類來表示一個Regex。一般Regex引擎支援以下3種匹配模式:單行模式(Singleline)、多行模式(Multiline)與忽略大小寫(IgnoreCase)。

1. 單行模式(Singleline)
MSDN定義:更改點 (.) 的含義,使它與每一個字元匹配(而不是與除 \n 之外的每個字元匹配)。
使用單行模式的典型情境是擷取網頁源碼中的資訊。
樣本:
我們使用WebBrowser控制項,從http://www.xxx.com/1.htm上擷取了如下HTML源碼,它儲存在變數str中:
<html>
<body>
<div>
Line 1
Line 2
</div>
</body>
</html>
我們想把div標籤以及其中的內容提取出來,編寫代碼如下:

string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結果為:Mismatch!
錯誤分析:
一般認為點符號(.)是匹配任意單個字元的,而(.*)就是匹配任意多個字元。但實際上點符號不能匹配分行符號。在Windows中與它等效的運算式為[^\r\n]。
而我們從網站上擷取的HTML源碼,極少有不換行的。這時候單行模式派上用場了,它可以改變點符號的意義。修改regex執行個體的建構函式,用RegexOptions.Singleline來聲明使用單行模式:

string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern, RegexOptions.Singleline);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

/*
結果為:
<div>
Line 1
Line 2
</div>
*/

單行模式的嵌入修飾符:
我們可以直接在Regex中嵌入單行模式:
(?s)<div>.*</div>
(?s)修飾符說明,其後面的運算式採用單行模式。所以使用時請不要將它放在末尾。另外可以使用(?-s)關閉單行模式。
注意:嵌入模式的優先順序要高於Regex類的RegexOptions設定,所以使用了(?s)後,無論是否使用RegexOptions.Singleline,均按照單行模式解析。

2. 多行模式(Multiline)
MSDN定義:更改 ^ 和 $ 的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字串的開頭和結尾匹配。
樣本:
有一個文字檔,它的每一行是一個使用者名稱,將檔案讀入變數str中進行處理。其內容如下:
二十四畫生
TerryLee
莫相會
Dflying Chen
Rainy
借用部落格園各位前輩的大名:)
我們想找出一個使用英文字母開頭的使用者名稱,編寫代碼如下:

string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結果為:Mismatch!
錯誤分析:
(^)是字串的起始錨定,str的第一個字元是一個中文字,所以匹配不上。我們就可以使用多行模式來改變(^)的含義,使它匹配每一行的起始,而不是整個字串的起始。
更改代碼如下:

string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結果為:TerryLee
同時,多行模式也會改變($)的含義,使它匹配每一行的結尾,而不是整個字串的結尾。
與(^)和($)不同的是,(\A)和(\Z)並不受多行模式的影響,永遠匹配整個字串的起始和結尾。
多行模式的嵌入修飾符:(?m)與(?-m)

3. 忽略大小寫(IgnoreCase)
MSDN定義:指定不區分大小寫匹配。
這個模式很容易理解,它認為大小寫字元是相同的。我們仍以上例來說明。
樣本:

string pattern = @"^[a-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結果為:TerryLee
分析:請注意這次使用的Regex,我們並沒有寫入大寫字母,但卻匹配了以大寫字母開頭的名字,這就是忽略大小寫效果。
忽略大小寫嵌入修飾符:(?i)與(?-i)

總結:
最後我們用一個表格來總結一下這三個模式
   定義    影響的運算式    RegexOptions枚舉    嵌入標識符
單行模式    更改點 (.) 的含義,使它與每一個字元匹配(而不是與除 \n 之外的每個字元匹配)。    .    Singleline    (?s)
多行模式    更改 ^ 和 $ 的含義,使它們分別在任意一行的行首和行尾匹配,而不僅僅在整個字串的開頭和結尾匹配。    ^$    Multiline    (?m)
忽略大小寫    指定不區分大小寫匹配。        IgnoreCase    (?i)



相關文章

Beyond APAC's No.1 Cloud

19.6% IaaS Market Share in Asia Pacific - Gartner IT Service report, 2018

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。