之前一篇文章翻譯了Perl語言中的遞迴Regex. 其實不少語言中的正則都是支援遞迴的, 例如本文要介紹的PHP正則遞迴. 雖然, 工作中最常用的Regex都很”正則”, 只用最基本的文法就能解決85%以上的問題, 而且合理有效地使用普通正則來解決複雜問題也是一門技巧與學問; 但是進階一點的文法的確有它存的價值, 有時不用它還真辦不了事兒; 況且學習正則的樂趣也在於嘗試各種各樣的可能性, 滿足自己無窮無盡的好奇心.
本文內容, 整理自網文Finer points of PHP regular expressions. 其分析過程剝繭抽絲, 絲絲入扣, 值得一讀. 該文系統地列出了PHP中Regex常見特性, 我只摘取其中遞迴部分翻譯整理出來.
本文
例子
什麼時候會用到遞迴Regex呢? 當然是待匹配的字串中遞迴地出現某種模式時(貌似廢話). 最經典的例子, 就是遞迴正則處理嵌套括弧的問題了. 例子如下.
假設你的文本中包含了正確配對的嵌套括弧. 括弧的深度可以是無限層. 你想捕獲這樣的括弧組.
恕我劇透, 標準答案是這樣的:
複製代碼 代碼如下:<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/\(([^()]+|(?R))*\)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
其輸出結果是:
複製代碼 代碼如下:Array
(
[0] => (a(b(c)d)e)
[1] => e
)
可見, 我們所需要的文本, 已經捕獲到$matches[0]中了.
原理
現在思考原理.
上面的Regex中的關鍵點是(?R). (?R)的作用就是遞迴地替換它所在的整條Regex. 在每次迭代時, PHP 文法分析器都會將(?R)替換為”\(([^()]+|(?R))*\)“.
因此, 具體到上述的例子, 其Regex等價於:
"/\(([^()]+|\(([^()]+|\(([^()]+)*\))*\))*\)/"
但是上面的代碼只適合深度為3層的括弧. 對於未知深度的括弧嵌套, 就只好使用這種正則了:
"/\(([^()]+|(?R))*\)/"
它不但能夠匹配無限深度, 還簡化了Regex的文法. 功能強大, 文法簡潔.
現在來細看一下"/\(([^()]+|(?R))*\)/"是怎樣匹配"(a(b(c)d)e)"的:
"(c)"這部分被正則式 "\(([^()]+)*\)" 匹配. 請注意, (c) 其實就相當於整個遞迴的一個縮影, 麻雀雖小五髒俱全, 因此它用到了整個Regex.
換言之, 下一步中的(c), 可以使用(?R) 來匹配.
(b(c)d)的匹配過程為:
"\("匹配"(";
"[^()]+"匹配"b";
(?R)匹配"(c)";
"[^()]+"匹配"d";
"\)"匹配")".
根據上面的匹配原理, 不難理解為什麼數組的第2個元素$matches[1]與'e'等價. 子串'e'是在最後一次匹配迭代中被捕獲. 匹配過程中, 只有最後一次的捕獲結果才會儲存到數組中.
rex注: 關於這個特性, 可以自行嘗試一下, 看看使用正則式([a-z]+[0-9]+)+來匹配字串abc123xyz890, 其捕獲結果$1是什麼. 注意, 其結果與 Left Longest 原理並不衝突.
如果我們只需要捕獲 $matches[0], 可以這樣做:
複製代碼 代碼如下:<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/\((?:[^()]+|(?R))*\)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
產生的結果相同: 複製代碼 代碼如下:Array
(
[0] => (a(b(c)d)e)
)
所做的改動是捕獲括弧()改為非捕獲捕獲括弧(?:)了.
還可以進一步完善為:
複製代碼 代碼如下:<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/\((?>[^()]+|(?R))*\)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
這裡我們用到了所謂的一次性模式(rex注: 餘晟先生譯的《精通Regexv3.0》中, 謂之”固化分組”. 可參考該書.) PHP手冊也推薦只要條件允許, 就儘可能使用這種模式, 以便提升Regex的速度.
一次性模式很簡單, 這裡不再詳述. 如果感興趣, 可以參考PHP 官方手冊. 如果您想深入學習PERL相容式Regex, 請參考文末連結.
原文: Finer points of PHP regular expressions
Perl相容Regex 官網 文檔
PHP官網的PCRE正則文檔