在項目開發過程中正則表示經常會用到,可以說會Regex是每個程式員最基本的要求,初學者在剛接觸Regex都感到很吃力。最近看到一位朋友的部落格寫的《PHPRegex》獲益頗多,在章節對萬用字元以及捕獲資料非常感興趣。這兩章節剛好也涉及到了Regex的擷取的群組和非擷取的群組的內容,以此來分析這方面的內容
我們知道,在Regex下(x) 表示匹配'x'並記錄匹配的值。這隻是比較通俗的說法,甚至說這是不嚴謹的說法,只有()擷取的群組形式才會記錄匹配的值。非擷取的群組則只匹配,不記錄。
擷取的群組:
(pattern)
這種形式是我們見到最多的一種形式,匹配並返回捕獲結果,可以嵌套,組號順序從左至右依次排列‘。
複製代碼 代碼如下:
$regex = '/(ab(c)+)+d(e)?/';
$str = 'abccde';
$matches = array();
if(preg_match($regex, $str, $matches)){
print_r($matches);
}
匹配結果:
複製代碼 代碼如下:
Array ( [0] => abccde [1] => abcc [2] => c [3] => e )
(?Ppattern)
這種方式雖然看起來在構造Regex的時候略微複雜一點,但實質上與(pattern)一樣。最大的優勢體現在對結果處理上,程式員可以直接根據自己設定的直接快速調用結果,而不用再去數需要的結果在第幾個子組了。
複製代碼 代碼如下:
$regex = '/(?P\w(?P\w))abc(?P\w)45/';
$str = 'fsabcd45';
$matches = array();
if(preg_match($regex, $str, $matches)){
print_r($matches);
}
匹配結果:
複製代碼 代碼如下:
Array ( [0] => fsabcd45 [group1] => fs [1] => fs [group2] => s [2] => s [group3] => d [3] => d )
\num
num是一個整數,是對擷取的群組的反向引用。 例如\2表示第二個子組匹配值,\表示第一個子組匹配值
複製代碼 代碼如下:
$regex = '/(\w)(\w)\2\1/';
$str = 'abba';
$matches = array();
if(preg_match($regex, $str, $matches)){
print_r($matches);
}
匹配結果:
複製代碼 代碼如下:
Array ( [0] => abba [1] => a [2] => b )
注意,這裡我疏忽了一個小細節,一開始我第一樣代碼是 $regex = “/(\w)(\w)\2\1/”; 結果返回無匹配結果,經過調試後,發現這裡只能用' '。'與" 用法差別大家還是需要注意下。
\k< name >
瞭解了(?Ppattern)與\num,這個就不難理解了。\k< name >是對命名擷取的群組的反向引用。其中 name 是擷取的群組名。
複製代碼 代碼如下:
$regex='/(?P\w)abc\k/';
$str="fabcf";
echo preg_match_all($regex, $str,$matches);
print_r($matches);
匹配結果:
複製代碼 代碼如下:
Array ( [0] => Array ( [0] => fabcf ) [name] => Array ( [0] => f ) [1] => Array ( [0] => f ) )
非擷取的群組:
(?:pattern)
與(pattern)的唯一區別是,匹配pattern但不捕獲匹配結果。這裡便不再舉例。
還有四種方式實際上講的是一個事情:預查。
預查分為正向預查與反向預查。根據字面理解,正向預查是判斷匹配字串後面某些字元存在與否,而反向預查則是判斷匹配字串前面某些字元存在與否。
正向預查判斷存在使用(?=pattern),判斷不存在使用(?!pattern)。
反向預查判斷存在使用(?<=pattern),判斷不存在使用(?
複製代碼 代碼如下:
$regx='/(?<=a)bc(?=d)/';
$str="abcd ebcd abce ebca";
if(preg_match_all($regx, $str, $matches)){
print_r($matches);
}
匹配結果:
複製代碼 代碼如下:
Array ( [0] => Array ( [0] => bc) )
這四種形式使用的是否只要注意好相對匹配字串的位置和斷言肯定還是否定,就會很快掌握。
另外,預查的四種形式是零寬度的,匹配的時候只做一個判斷,本身是不佔位置的。/HE(?=L)LLO/ 與HELLO匹配,而/HE(?=L)LO/與HELLO是不匹配的。畢竟但從位元組數上兩者就是不匹配的,前者只有4個,而後者有5個。
以上就是PHP之Regex擷取的群組與非擷取的群組詳解的全部內容,希望對大家有所啟迪。