PHPRegex模式修正符
PHPRegex /i, /is, /s, /isU等 都是些什麼東西呢?
1、Regex運算順序 ( ) 圓括弧因為是記憶體處理所以最高
* ? + { } 重複匹配內容其次
^ $ \b 邊界處理第三
| 條件處理第四
最後按照運算順序計算匹配
2、Regex模式修正符i 正則內容在匹配時候不區分大小寫(預設是區分的)
m 在匹配首內容或者尾內容時候採用多行識別匹配
S 將轉義斷行符號取消是為單行匹配如. 匹配的時候
x 忽略正則中的空白
A 強制從頭開始匹配
D 強制$匹配尾部無任何內容 \n
U 禁止貪婪匹配 只跟蹤到最近的一個匹配符並結束,
常用在採集程式上的Regex
i 匹配大小寫
s 模式中的圓點元字元(.)匹配所有的字元,包括分行符號
x 模式中的空白字元除了被轉義的或在字元類中的以外完全被忽略,在未轉義的字元類之外的 # 以及下一個分行符號之間的所有字元,包括兩 頭,也都被忽略
A (PCRE_ANCHORED) 如果設定了此修正符,模式被強製為“anchored”,即強制僅從目標字串的開頭開始匹配即自動在模式開頭加上^。
D (PCRE_DOLLAR_ENDONLY) 如果設定了此修正符,模式中的美元元字元僅匹配目標字串的結尾。沒有此選項時,如果最後一個字元是分行符號的話,貨幣符號也會匹配此字元之前(但不會匹配 任何其它分行符號之前)。如果設定了 m 修正符則忽略此選項。Perl 中沒有與其等價的修正符。 S 當一個模式將被使用若干次時,為加速匹配起見值得先對其進行分析。如果設定了此修正符則會進行額外的分析。目前,分析一個模式僅對沒有單一固定起始字元的 non-anchored 模式有用。
U (PCRE_UNGREEDY) 本修正符反轉了匹配數量的值使其不是預設的重複,而變成在後面跟上“?”才變得重複。這和 Perl 不相容。也可以通過在模式之中設定 (?U) 修正符來啟用此選項。
X (PCRE_EXTRA) 此 修正符啟用了一個 PCRE 中與 Perl 不相容的額外功能。模式中的任何反斜線後面跟上一個沒有特殊意義的字母導致一個錯誤,從而保留此組合以備將 來擴充。預設情況下,和 Perl 一樣,一個反斜線後面跟一個沒有特殊意義的字母被當成該字母本身。當前沒有其它特性受此修正符控制。即:貪婪模式,最 大限度匹配 如:/a[\w]+?e/U匹配abceadeddd中的abceade而不是abce,如果不加U修正,則匹配abce u (PCRE_UTF8) 此修正符啟用了一個 PCRE 中與 Perl 不相容的額外功能。模式字串被當成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。
<?php echo '<pre>'; $str = '<ul>hello world<li>hi</li><li>hello</li></ul>'; $pattern = '~<li>.*</li>~'; preg_match($pattern,$str,$matches); var_dump($matches); /* array(1) { [0]=> string(25) "<li>hi</li><li>hello</li>" } */ $pattern1 = '~<li>.*?</li>~'; preg_match($pattern1,$str,$matches1); var_dump($matches1); /* array(1) { [0]=> string(11) "<li>hi</li>" } */ $pattern2 = '~<li>.*</li>~U'; preg_match($pattern2,$str,$matches2); var_dump($matches2); /* array(1) { [0]=> string(11) "<li>hi</li>" } */ $pattern3 = '~<li>.*?</li>~U'; preg_match($pattern3,$str,$matches3); var_dump($matches3); /* array(1) { [0]=> string(25) "<li>hi</li><li>hello</li>" } */
事實證明,加了U,原來是貪婪匹配的變成非貪婪匹配,非貪婪匹配的卻變成了貪婪匹配。