PHPRegex之擷取的群組與非擷取的群組_php執行個體

來源:互聯網
上載者:User

今天遇到一個正則匹配的問題,忽然翻到有擷取的群組的概念,手冊上也是一略而過,百度時無意翻到C#和Java中有對正則擷取的群組的特殊用法,搜尋關鍵詞有PHP時竟然沒有相關內容,自己試了一下,發現在PHP中也是可行的,於是總結一下,分享的同時也希望有大神和細心的學習者找到我理解中出現的問題。

什麼是擷取的群組

擷取的群組文法:

字元 

描述

樣本

(pattern)

匹配pattern並捕獲結果,自動化佈建組號。

 (abc)+d

匹配abcd或者abcabcd

(?<name>pattern)

(?'name'pattern)

匹配pattern並捕獲結果,設定name為組名。

 

\num

對擷取的群組的反向引用。其中 num 是一個正整數。

(\w)(\w)\2\1

匹配abba

\k< name >

\k' name '

對命名擷取的群組的反向引用。其中 name 是擷取的群組名。

(?<group>\w)abc\k<group>

匹配xabcx

我們先看一下PHP的正則匹配函數

int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]] )

前面兩項是我們常用的,$pattern是正則匹配模式,$string是要匹配的字串。

array &$match,它是一個數組,&表示匹配出來的結果會被寫入$match中。

int $flags 如果傳遞了這個標記, 對於每一個出現的匹配返回時會附加字串位移量(相對於目標字串的)。

int $offset 用於指定從目標字串的某個未知開始搜尋(單位是位元組)。

我們主要看一下$match的值裡會有什麼:

$mode = '/a=(\d+)b=(\d+)c=(\d+)/';$str='**a=4b=98c=56**';$res=preg_match($mode,$str,$match);var_dump($match);

結果如下:

array (size=4)
  0 => string 'a=4b=98c=56' (length=11)
  1 => string '4' (length=1)
  2 => string '98' (length=2)
  3 => string '56' (length=2)

現在我們知道了什麼是擷取的群組,擷取的群組是正則表達示中以()括起來的部分,每一對()是一個擷取的群組。

PHP會為它編號,從1開始。至於為什麼會從1開始,那是因為PHP把匹配到的完整字串編號為0。

如果有多個括弧或嵌套括弧,按左邊括弧出現的順序來進行編號,如圖:

按圖中的匹配模式比對時,擷取的群組的123號分別是紅綠藍。

擷取的群組的忽略與命名

我們還可以阻止PHP為匹配組的編號:在匹配組中模式前加  ?:

$mode = '/a=(\d+)b=(?:\d+)c=(\d+)/';

這樣,匹配結果就會變成:

array (size=3) 0 => string 'a=4b=98c=56' (length=11) 1 => string '4' (length=1) 2 => string '56' (length=2)

當然,我們也可以在括弧的內部為它給它獨特的名字。

命名子組可以接受(?<name>), (?'name') 以及(?P<name>)文法. 之前版本僅接受(?P<name>)文法.

例如:$mode = '/a=(\d+)b=(?P<sec>\d+)c=(\d+)/';

使用時結果為:

array (size=5) 0 => string 'a=4b=98c=56' (length=11) 1 => string '4' (length=1) 'sec' => string '98' (length=2) 2 => string '98' (length=2) 3 => string '56' (length=2)

在保留索引數組的同時,加上一個關聯項,key值為擷取的群組名。

擷取的群組的反向引用

我們在用preg_replace()函數進行正則替換時,我們還可以使用 \n 或 $n 來引用第n個擷取的群組.

$mode = '/a=(\d+)b=(\d+)c=(\d+)/';$str='**a=4b=98c=56**';$rp='\1/$2/\3/';echo preg_replace($mode,$rp,$str);//**4/98/56/**

\1表示擷取的群組1(4),$2為擷取的群組2(98),\3為擷取的群組3(56)。

非擷取的群組的用法:

非擷取的群組文法:

字元 

描述

樣本

(?:pattern)

匹配pattern,但不捕獲匹配結果。

'industr(?:y|ies)

匹配'industry'或'industries'。

(?=pattern)

零寬度正向預查,不捕獲匹配結果。

'Windows (?=95|98|NT|2000)'

匹配 "Windows2000" 中的 "Windows"

不匹配 "Windows3.1" 中的 "Windows"。

(?!pattern)

零寬度負向預查,不捕獲匹配結果。

'Windows (?!95|98|NT|2000)'

匹配 "Windows3.1" 中的 "Windows"

不匹配 "Windows2000" 中的 "Windows"。

(?<=pattern)

零寬度正向回查,不捕獲匹配結果。

'2000 (?<=Office|Word|Excel)'

匹配 " Office2000" 中的 "2000"

不匹配 "Windows2000" 中的 "2000"。

(?<!pattern)

零寬度負向回查,不捕獲匹配結果。

'2000 (?<!Office|Word|Excel)'

匹配 " Windows2000" 中的 "2000"

不匹配 " Office2000" 中的 "2000"。

為什麼稱為非擷取的群組呢?那是因為它們有擷取的群組的特性,在匹配模式的()中,但是匹配時,PHP不會為它們編組,它們只會影響匹配結果,並不作為結果輸出。

/d(?=xxx)    匹配"後面是xxx的一個數字"。

注意格式:只能放在匹配模式字串之後!

例如:

$pattern='/\d(?=abc)/';$str="ab36abc8eg";$res=preg_match($pattern,$str,$match);var_dump($match);//6

匹配的6,因為只有它作為一個數字,後面還有abc。

(?<=xxx) /d 匹配"前面是xxx的一個數字"

注意格式:只能放在匹配模式字串之前!

例如:

$pattern='/(?<=abc)\d/';$str="ab36abc8eg";$res=preg_match($pattern,$str,$match);var_dump($match);//8

匹配的8,因為只有它作為一個數字,後面還有abc。

與(?=xxx)  (?<=xxx)相對的是(?!=xxx)  (?<!=xxx) 它們在=前加了非運算子 “!”

它表示前面/後面不是xxx的字串,這裡就不再舉例了。

如果您覺得本博文對您有協助,您可以推薦或關注我,如果您有什麼問題,可以在下方留言討論,謝謝。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.