Regex的匹配先後順序:
1.模式單元
2.重複匹配 ? * + {}
3.邊界限定 ^ $ b B
4.模式選擇 |
模式修正符:
模式修正符是標記在整個模式之外的.
i :模式中的字元將同時匹配大小寫字母.
m :字串視為多行.
s :將字串視為單行,分行符號作為一般字元.
x :將模式中的空白忽略.
A :強制僅從目標字串的開頭開始匹配.
D :模式中的美元元字元僅匹配目標字串的結尾.
U :匹配最近的字串.
PHP與Regex中的模式修正符
下面列出了當前在 PCRE 中可能使用的修正符。括弧中是這些修正符的內部 PCRE 名。
i (PCRE_CASELESS)
如果設定此修正符,模式中的字元將同時匹配大小寫字母。
m (PCRE_MULTILINE)
預設情況下,PCRE 將目標字串作為單一的一“行”字元所組成的(甚至其中包含有分行符號也是如此)。“行起始”元字元(^)僅僅匹配字串的 起始,“行結束”元字元($)僅僅匹配字串的結束,或者最後一個字元是分行符號時其前面(除非設定了 D 修正符)。這和 Perl 是一樣的。
當設定了此修正符,“行起始”和“行結束”除了匹配整個字串開頭和結束外,還分別匹配其中的分行符號的之後和之前。這和 Perl 的 /m 修正符是等效的。如果目標字串中沒有“\n”字元或者模式中沒有 ^ 或 $,則設定此修正符沒有任何效果。
s (PCRE_DOTALL)
如果設定了此修正符,模式中的圓點元字元(.)匹配所有的字元,包括分行符號。沒有此設定的話,則不包括分行符號。這和 Perl 的 /s 修正符是等效的。排除字元類例如 [^a] 總是匹配分行符號的,無論是否設定了此修正符。
x (PCRE_EXTENDED)
如果設定了此修正符,模式中的空白字元除了被轉義的或在字元類中的以外完全被忽略,在未轉義的字元類之外的 # 以及下一個分行符號之間的所有字元,包括兩頭,也都被忽略。這和 Perl 的 /x 修正符是等效的,使得可以在複雜的模式中加入注釋。然而注意,這僅適用於資料字元。空白字元可能永遠不會出現於模式中的特殊字元序列,例如引入條件子模式的序列 (?( 中間。
e
如果設定了此修正符,preg_replace() 在替換字串中對逆向引用作正常的替換,將其作為 PHP 代碼求值,並用其結果來替換所搜尋的字串。
只有 preg_replace() 使用此修正符,其它 PCRE 函數將忽略之。
注: 本修正符在 PHP3 中不可用。
A (PCRE_ANCHORED)
如果設定了此修正符,模式被強製為“anchored”,即強制僅從目標字串的開頭開始匹配。此效果也可以通過適當的模式本身來實現(在 Perl 中實現的唯一方法)。
D (PCRE_DOLLAR_ENDONLY)
如果設定了此修正符,模式中的美元元字元僅匹配目標字串的結尾。沒有此選項時,如果最後一個字元是分行符號的話,貨幣符號也會匹配此字元之前(但不會匹配任何其它分行符號之前)。如果設定了 m 修正符則忽略此選項。Perl 中沒有與其等價的修正符。
S
當一個模式將被使用若干次時,為加速匹配起見值得先對其進行分析。如果設定了此修正符則會進行額外的分析。目前,分析一個模式僅對沒有單一固定起始字元的 non-anchored 模式有用。
U (PCRE_UNGREEDY)
本修正符反轉了匹配數量的值使其不是預設的重複,而變成在後面跟上“?”才變得重複。這和 Perl 不相容。也可以通過在模式之中設定 (?U) 修正符來啟用此選項。
X (PCRE_EXTRA)
此修正符啟用了一個 PCRE 中與 Perl 不相容的額外功能。模式中的任何反斜線後面跟上一個沒有特殊意義的字母導致一個錯誤,從而保留此組合以備將來擴充。預設情況下,和 Perl 一樣,一個反斜線後面跟一個沒有特殊意義的字母被當成該字母本身。當前沒有其它特性受此修正符控制。
u (PCRE_UTF8)
此修正符啟用了一個 PCRE 中與 Perl 不相容的額外功能。模式字串被當成 UTF-8。本修正符在 Unix 下自 PHP 4.1.0 起可用,在 win32 下自 PHP 4.2.3 起可用。
關於逆向引用
逆向引用和子模式是相關的。
/()/是用於子模式的定界符,匹配的子模式自動分配編號1~9,這麼說的因為\\99會讓解譯器感到混亂。不過可以用/(?)/(另一種寫法/(?'word')/)來為子模式命名,用\\k(一定記得有個k)來進行逆向引用,這樣一來就不會有編號數目的限制了(準確的說最大限度是99,再大也似乎隱約沒有必要了)。
/(?:t1|t2|)/這個“?:”用於告訴解譯器不要為這個子模式分配自動編號,因此就是“跳到”t2開始編號了。
/\b(?=ing\b)/這個的引用意思是匹配運算式前面的內容 如果例子用於匹配I'm singing while you dancing 那得到的結果是 sing 和 danc,因為用了\b這個單詞界定符。
/(?<=ing)/匹配ing後面的內容。