隨筆之Regex

來源:互聯網
上載者:User

          呵呵,也是複製的資料

元字元
現在你已經知道幾個很有用的元字元了,如\b,.,*,還有\d.當然還有更多的元字元,比如\s匹配任意的空白符,包括空格,定位字元(Tab),分行符號,中文全形空格等。\w匹配字母或數字或底線或漢字。

下面來試試更多的例子:

\ba\w*\b匹配以字母a開頭的單詞——先是某個單詞開始處(\b),然後是字母a,然後是任意數量的字母或數字(\w*),最後是單詞結束處(\b)(好吧,現在我們說說這裡的單詞是什麼意思吧:就是幾個連續的\w。不錯,這與學習英文時要背的成千上萬個同名的東西的確關係不大)。

\d+匹配1個或更多連續的數字。這裡的+是和*類似的元字元,不同的是*匹配重複任意次(可能是0次),而+則匹配重複1次或更多次。

\b\w{6}\b 匹配剛好6個字母/數位單詞。

表1.常用的元字元 代碼 說明
. 匹配除分行符號以外的任一字元
\w 匹配字母或數字或底線或漢字
\s 匹配任意的空白符
\d 匹配數字
\b 匹配單詞的開始或結束
^ 匹配字串的開始
$ 匹配字串的結束

元字元^(和6在同一個鍵位上的符號)以及$和\b有點類似,都匹配一個位置。^匹配你要用來尋找的字串的開頭,$匹配結尾。這兩個代碼在驗證輸入的內容時非常有用,比如一個網站如果要求你填寫的QQ號必須為5位到12位元字時,可以使用:^\d{5,12}$。

這裡的{5,12}和前面介紹過的{2}是類似的,只不過{2}匹配只能不多不少重複2次,{5,12}則是必須重複最少5次,最多12次,否則都不匹配。

因為使用了^和$,所以輸入的整個字串都要用來和\d{5,12}來匹配,也就是說整個輸入必須是5到12個數字,因此如果輸入的QQ號能匹配這個Regex的話,那就符合要求了。

和忽略大小寫選項類似,有些Regex處理工具還有一個處理多行的選項。如果選中了這個選項,^和$的意義就變成了匹配行的開始處和結束處。

字元轉義
如果你想尋找元字元本身的話,比如你尋找.,或者*,就出現了問題:你沒法指定它們,因為它們會被解釋成其它的意思。這時你就必須使用\來取消這些字元的特殊意義。因此,你應該使用\.和\*。當然,要尋找\本身,你也得用\\.

例如:www\.unibetter\.com匹配www.unibetter.com,c:\\windows匹配c:\windows,2\^8匹配2^8(通常這是2的8次方的書寫方式)。

重複
你已經看過了前面的*,+,{2},{5,12}這幾個匹配重複的方式了。下面是Regex中所有指定重複的方式:

表2.常用的限定符 代碼/文法 說明
* 重複零次或更多次
+ 重複一次或更多次
? 重複零次或一次
{n} 重複n次
{n,} 重複n次或更多次
{n,m} 重複n到m次

下面是一些使用重複的例子:

Windows\d+匹配Windows後面跟1個或更多數字

13\d{9}匹配以13後面跟9個數字(中國的手機號)

^\w+匹配一行的第一個單詞(或整個字串的第一個單詞,具體匹配哪個意思得看選項設定)

字元類
要想尋找數字,字母或數字,空白是很簡單的,因為已經有了對應這些字元集的元字元,但是如果你想匹配沒有預定義元字元的字元集比如母音字母(a,e,i,o,u),怎麼辦?

很簡單,你只需要在中括弧裡列出它們就行了,像[aeiou]就匹配任何一個母音字母,[.?!]匹配標點符號(.或?或!)(英文語句通常只以這三個標點結束)。注意,我們不需要寫成[\.\?!]。

我們也可以輕鬆地指定一個字元範圍,像[0-9]代表的含意與\d就是完全一致的:一位元字,同理[a-z0-9A-Z_]也完全等同於\w(如果只考慮英文的話)。

下面是一個更複雜的運算式:\(?0\d{2}[) -]?\d{8}。

這個運算式可以匹配幾種格式的電話號碼,像(010)88886666,或022-22334455,或02912345678等。我們對它進行一些分析吧:首先是一個逸出字元\(,它能出現0次或1次(?),然後是一個0,後面跟著2個數字({2}),然後是)或-或空格中的一個,它出現1次或不出現(?),最後是8個數字(\d{8})。不幸的是,它也能匹配010)12345678或(022-87654321這樣的“不正確”的格式。要解決這個問題,請在本教程的下面尋找答案。

反義
有時需要尋找不屬於某個能簡單定義的字元類的字元。比如想尋找除了數字以外,其它任一字元都行的情況,這時需要用到反義:

表3.常用的反義代碼 代碼/文法 說明
\W 匹配任意不是字母,數字,底線,漢字的字元
\S 匹配任意不是空白符的字元
\D 匹配任意非數位字元
\B 匹配不是單詞開頭或結束的位置
[^x] 匹配除了x以外的任一字元
[^aeiou] 匹配除了aeiou這幾個字母以外的任一字元

例子:\S+匹配不包含空白符的字串。

<a[^>]+>匹配用角括弧括起來的以a開頭的字串。

替換
好了,現在終於到瞭解決3位或4位區號問題的時間了。Regex裡的替換指的是有幾種規則,如果滿足其中任意一種規則都應該當成匹配,具體方法是用|把不同的規則分隔開。聽不明白?沒關係,看例子:

0\d{2}-\d{8}|0\d{3}-\d{7}這個運算式能匹配兩種以連字號分隔的電話號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)。

\(0\d{2}\)[- ]?\d{8}|0\d{2}[- ]?\d{8}這個運算式匹配3位區號的電話號碼,其中區號可以用小括弧括起來,也可以不用,區號與本地號間可以用連字號或空格間隔,也可以沒有間隔。你可以試試用替換|把這個運算式擴充成也支援4位區號的。

\d{5}-\d{4}|\d{5}這個運算式用於匹配美國的郵遞區號。美國郵編的規則是5位元字,或者用連字號間隔的9位元字。之所以要給出這個例子是因為它能說明一個問題:使用替換時,順序是很重要的。如果你把它改成\d{5}|\d{5}-\d{4}的話,那麼就只會匹配5位的郵編(以及9位郵編的前5位)。原因是匹配替換時,將會從左至右地測試每個分枝條件,如果滿足了某個分枝的話,就不會去管其它的替換條件了。

Windows98|Windows2000|WindosXP這個例子是為了告訴你替換不僅僅能用於兩種規則,也能用於更多種規則。

分組
我們已經提到了怎麼重複單個字元(直接在字元後面加上限定符就行了);但如果想要重複一個字串又該怎麼辦?你可以用小括弧來指定子運算式(也叫做分組),然後你就可以指定這個子運算式的重複次數了,你也可以對子運算式進行其它一些操作(後面會有介紹)。

(\d{1,3}\.){3}\d{1,3}是一個簡單的IP地址匹配運算式。要理解這個運算式,請按下列順序分析它:\d{1,3}匹配1到3位的數字,(\d{1,3}\.}{3}匹配三位元字加上一個英文句號(這個整體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})。

不幸的是,它也將匹配256.300.888.999這種不可能存在的IP地址(IP地址中每個數字都不能大於255)。如果能使用算術比較的話,或許能簡單地解決這個問題,但是Regex中並不提供關於數學的任何功能,所以只能使用冗長的分組,選擇,字元類來描述一個正確的IP地址:((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

理解這個運算式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裡我就不細說了,你自己應該能分析得出來它的意義。

後向引用
使用小括弧指定一個子運算式後,匹配這個子運算式的文本可以在運算式或其它程式中作進一步的處理。預設情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括弧為標誌,第一個出現的分組的組號為1,第二個為2,以此類推。

後向引用用於重複搜尋前面某個分組匹配的文本。例如,\1代表分組1匹配的文本。難以理解?請看樣本:

\b(\w+)\b\s+\1\b可以用來匹配重複的單詞,像go go, kitty kitty。首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w+)\b),然後是1個或幾個空白符(\s+,最後是前面匹配的那個單詞(\1)。

你也可以自己指定子運算式的組號或組名。要指定一個子運算式的組名,請使用這樣的文法:(?<Word>\w+),這樣就把\w+的組名指定為Word了。要反向引用這個分組捕獲的內容,你可以使用\k<Word>,所以上一個例子也可以寫成這樣:\b(?<Word>\w+)\b\s*\k<Word>\b。

使用小括弧的時候,還有很多特定用途的文法。下面列出了最常用的一些:

表4.分組文法 捕獲
(exp) 匹配exp,並捕獲文本到自動命名的組裡
(?<name>exp) 匹配exp,並捕獲文本到名稱為name的組裡,也可以寫成(?"name"exp)
(?:exp) 匹配exp,不捕獲匹配的文本
位置指定
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp後面的位置
(?!exp) 匹配後面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注釋
(?#comment) 這種類型的組不對Regex的處理產生任何影響,只是為了提供讓人閱讀注釋

我們已經討論了前兩種文法。第三個(?:exp)不會改變Regex的處理方式,只是這樣的組匹配的內容不會像前兩種那樣被捕獲到某個組裡面。

位置指定
接下來的四個用於尋找在某些內容(但並不包括這些內容)之前或之後的東西,也就是說它們用於指定一個位置,就像\b,^,$那樣,因此它們也被稱為零寬斷言。最好還是拿例子來說明吧:

(?=exp)也叫零寬先行斷言,它匹配文本中的某些位置,這些位置的後面能匹配給定的尾碼exp。比如\b\w+(?=ing\b),匹配以ing結尾的單詞的前面部分(除了ing以外的部分),如果在尋找I"m singing while you"re dancing.時,它會匹配sing和danc。

(?<=exp)也叫零寬後行斷言,它匹配文本中的某些位置,這些位置的前面能給定的首碼匹配exp。比如(?<=\bre)\w+\b會匹配以re開頭的單詞的後半部分(除了re以外的部分),例如在尋找reading a book時,它匹配ading。

假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣尋找需要在前面和裡面添加逗號的部分:((?<=\d)\d{3})*\b。請仔細分析這個運算式,它可能不像你第一眼看出來的那麼簡單。

下面這個例子同時使用了首碼和尾碼:(?<=\s)\d+(?=\s)匹配以空白符間隔的數字(再次強調,不包括這些空白符)。

負向位置指定
前面我們提到過怎麼尋找不是某個字元或不在某個字元類裡的字元的方法(反義)。但是如果我們只是想要確保某個字元沒有出現,但並不想去匹配它時怎麼辦?例如,如果我們想尋找這樣的單詞--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣:

\b\w*q[^u]\w*\b匹配包含後面不是字母u的字母q的單詞。但是如果多做測試(或者你思維足夠敏銳,直接就觀察出來了),你會發現,如果q出現在單詞的結尾的話,像Iraq,Benq,這個運算式就會出錯。這是因為[^u]總是匹配一個字元,所以如果q是單詞的最後一個字元的話,後面的[^u]將會匹配q後面的單詞分隔字元(可能是空格,或者是句號或其它的什麼),後面的\w+\b將會匹配下一個單詞,於是\b\w*q[^u]\w*\b就能匹配整個Iraq fighting。負向位置指定能解決這樣的問題,因為它只匹配一個位置,並不消費任何字元。現在,我們可以這樣來解決這個問題:\b\w*q(?!u)\w*\b。

零寬負向先行斷言(?!exp),只會匹配尾碼exp不存在的位置。\d{3}(?!\d)匹配三位元字,而且這三位元字的後面不能是數字。

同理,我們可以用(?<!exp),零寬負向後行斷言來尋找首碼exp不存在的位置:(?<![a-z])\d{7}匹配前面不是小寫字母的七位元字(實驗時發現錯誤?注意你的“區分大小寫”先項是否選中)。

一個更複雜的例子:(?<=<(\w+)>).*(?=<\/\1>)匹配不包含屬性的簡單HTML標籤內裡的內容。(<?(\w+)>)指定了這樣的首碼:被角括弧括起來的單詞(比如可能是<b>),然後是.*(任意的字串),最後是一個尾碼(?=<\/\1>)。注意尾碼裡的\/,它用到了前面提過的字元轉義;\1則是一個反向引用,引用的正是捕獲的第一組,前面的(\w+)匹配的內容,這樣如果首碼實際上是<b>的話,尾碼就是</b>了。整個運算式匹配的是<b>和</b>之間的內容(再次提醒,不包括首碼和尾碼本身)。

注釋
小括弧的另一種用途是能過文法(?#comment)來包含注釋。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。

要包含注釋的話,最好是啟用“忽略模式裡的空白符”選項,這樣在編寫運算式時能任意的添加空格,Tab,換行,而實際使用時這些都將被忽略。啟用這個選項後,在#後面到這一行結束的所有文本都將被當成注釋忽略掉。

例如,我們可以前面的一個運算式寫成這樣:

      (?<=    # 尋找首碼,但不包含它      <(\w+)> # 尋找角括弧括起來的字母或數字(標籤)      )       # 首碼結束      .*      # 匹配任意文本      (?=     # 尋找尾碼,但不包含它      <\/\1>  # 尋找角括弧括起來的內容:前面是一個"/",後面是先前捕獲的標籤      )       # 尾碼結束    貪婪與懶惰
當Regex中包含能接受重複的限定符(指定數量的代碼,例如*,{5,12}等)時,通常的行為是(在使整個運算式能得到匹配的前提下)匹配儘可能多的字元。考慮這個運算式:a.*b,它將會匹配最長的以a開始,以b結束的字串。如果用它來搜尋aabab的話,它會匹配整個字串aabab。這被稱為貪婪匹配。

有時,我們更需要懶惰匹配,也就是匹配儘可能少的字元。前面給出的限定符都可以被轉化為懶惰匹配模式,只要在它後面加上一個問號?。這樣.*?就意味著匹配任意數量的重複,但是在能使整個匹配成功的前提下使用最少的重複。現在看看懶惰版的例子吧:

a.*?b匹配最短的,以a開始,以b結束的字串。如果把它應用於aabab的話,它會匹配aab和ab(為什麼第一個匹配是aab而不是ab?簡單地說,最先開始的區配最有最大的優先權——The Match That Begins Earliest Wins)。

表5.懶惰限定符 *? 重複任意次,但儘可能少重複
+? 重複1次或更多次,但儘可能少重複
?? 重複0次或1次,但儘可能少重複
{n,m}? 重複n到m次,但儘可能少重複
{n,}? 重複n次以上,但儘可能少重複

平衡組
如果想要匹配可嵌套的層次性結構的話,就得使用平衡組了。舉個例子吧,如何把“xx <aa <bbb> <bbb> aa> yy”這樣的字串裡,最長的括弧內的內容捕獲出來?

這裡需要用到以下的文法構造:

(?<group>) 把捕獲的內容命名為group,並壓入堆棧
(?<-group>) 從堆棧上彈出最後壓入堆棧的名為group的捕獲內容,如果堆棧本來為空白,則本分組的匹配失敗
(?(group)yes|no) 如果堆棧上存在以名為group的捕獲內容的話,繼續匹配yes部分的運算式,否則繼續匹配no部分
(?!) 零寬負向先行斷言,由於沒有尾碼運算式,試圖匹配總是失敗
如果你不是一個程式員(或者你是一個對堆棧的概念不熟的程式員),你就這樣理解上面的三種文法吧:第一個就是在黑板上寫一個(或再寫一個)"group",第二個就是從黑板上擦掉一個"group",第三個就是看黑板上寫的還有沒有"group",如果有就繼續匹配yes部分,否則就匹配no部分。

我們需要做的是每碰到了左括弧,就在黑板上寫一個"group",每碰到一個右括弧,就擦掉一個,到了最後就看看黑板上還有沒有-如果有那就證明左括弧比右括弧多,那匹配就應該失敗(為了能看得更清楚一點,我用了(?"group")的文法):

<                         #最外層的左括弧    [^<>]*                #最外層的左括弧後面的不是括弧的內容    (        (            (?"Open"<)    #碰到了左括弧,在黑板上寫一個"Open"            [^<>>]*       #匹配左括弧後面的不是括弧的內容        )+        (            (?"-Open">)   #碰到了右括弧,擦掉一個"Open"            [^<>]*        #匹配右括弧後面不是括弧的內容        )+    )*    (?(Open)(?!)) #在遇到最外層的右括弧前面,判斷黑板上還有沒有沒擦掉的"Open";如果還有,則匹配失敗>                         #最外層的右括弧還有些什麼東西沒提到
我已經描述了構造Regex的大量元素,還有一些我沒有提到的東西。下面是未提到的元素的列表,包含文法和簡單的說明。你可以在網上找到更詳細的參考資料 來學習它們--當你需要用到它們的時候。如果你安裝了MSDN Library,你也可以在裡面找到關於.net下Regex詳細的文檔。

表6.尚未詳細討論的文法 \a 警示字元(列印它的效果是電腦嘀一聲)
\b 通常是單詞分界位置,但如果在字元類裡使用代表退格
\t 定位字元,Tab
\r 斷行符號
\v 豎向定位字元
\f 換頁符
\n 分行符號
\e Escape
\0nn ASCII代碼中八進位代碼為nn的字元
\xnn ASCII代碼中十六進位代碼為nn的字元
\unnnn Unicode代碼中十六進位代碼為nnnn的字元
\cN ASCII控制字元。比如\cC代表Ctrl+C
\A 字串開頭(類似^,但不受處理多行選項的影響)
\Z 字串結尾或行尾(不受處理多行選項的影響)
\z 字串結尾(類似$,但不受處理多行選項的影響)
\G 當前搜尋的開頭
\p{name} Unicode中命名為name的字元類,例如\p{IsGreek}
(?>exp) 貪婪子運算式
(?<x>-<y>exp) 平衡組
(?im-nsx:exp) 在子運算式exp中改變處理選項
(?im-nsx) 為運算式後面的部分改變處理選項
(?(exp)yes|no) 把exp當作零寬正向先行斷言,如果在這個位置能匹配,使用yes作為此組的運算式;否則使用no
(?(exp)yes) 同上,只是使用空運算式作為no
(?(name)yes|no) 如果命名為name的組捕獲到了內容,使用yes作為運算式;否則使用no
(?(name)yes) 同上,只是使用空運算式作為no

 

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.