php中Regex的子模式詳解

來源:互聯網
上載者:User

函數
mixed preg_replace ( mixed pattern, mixed replacement, mixed subject [, int limit])

功能
在 subject 中搜尋 pattern 模式的匹配項並替換為 replacement。如果指定了 limit,則僅替換 limit 個匹配,如果省略 limit 或者其值為 -1,則所有的匹配項都會被替換。
replacement可以包含\n形式或$n形式的逆向引用,n可以為0到99,\n表示匹配pattern第n個子模式的文本,\0表示匹配整個pattern的文本。

子模式
$pattern參數中被圓括弧括起來的Regex,子模式的數目即從左至右圓括弧的數目。(pattern即模式)

首先,我們先看一段PHP代碼:

 代碼如下 複製代碼

<?php
    $time = date ("Y-m-d H:i:s");
    $pattern = "/d{4}-d{2}-d{2} d{2}:d{2}:d{2}/i";
    if(preg_match($pattern,$time,$arr)){
    echo "<pre>";
    print_r($arr);       
    echo "</pre>";
    }
?>

顯示結果:

Array
(
    [0] => 2012-06-23 03:08:45
)有沒有注意到,顯示的結果只有一條資料,即符合匹配模式的時間格式,那如果只有一條記錄的話,為什麼還要用數組儲存呢?直接使用字串儲存不是更好?

帶著這個問題,我們來看下Regex中的子模式。

在Regex中,可以使用“(”和“)”將模式中的子字串括起來,以形成一個子模式。將子模式視為一個整體時,那麼它就相當於一個單個字元。

比如,我們將以上的代碼稍微修改下,改成如下:

 

 代碼如下 複製代碼

<?php
    $time = date ("Y-m-d H:i:s");
    $pattern = "/(d{4})-(d{2})-(d{2}) (d{2}):(d{2}):(d{2})/i";
    if(preg_match($pattern,$time,$arr)){
    echo "<pre>";
    print_r($arr);       
    echo "</pre>";
    }
?>

注意:我只修改了$pattern,在匹配模式中,使用了括弧()

執行結果:


Array
(
    [0] => 2012-06-23 03:19:23
    [1] => 2012
    [2] => 06
    [3] => 23
    [4] => 03
    [5] => 19
    [6] => 23
)
總結:我們可以使用小括弧給整個匹配模式進行分組,預設情況下,每個分組會自動擁有一個組號,規則是,從左至右,以分組的左括弧為標誌,第一個出現的分組為組號1,第二個為組號2,以此類推。其中,分組0對應整個Regex。對整個正則匹配模式進行了分組以後,就可以進一步使用“反向參考”來重複搜尋前面的某個分組匹配的文本。例如:1代表分組1匹配的文本,2代表分組2匹配的文本等等我們可以進一步修改下代碼,如下所示:

 代碼如下 複製代碼
<?php
    $time = date ("Y-m-d H:i:s");
    $pattern = "/(d{4})-(d{2})-(d{2}) (d{2}):(d{2}):(d{2})/i";
    $replacement = "$time格式為:$0<BR>替換後的格式為:\1年\2月\3日 \4時\5分\6秒";
    print preg_replace($pattern, $replacement, $time);
    if(preg_match($pattern,$time,$arr)){
        echo "<pre>";
        print_r($arr);       
        echo "</pre>";
    }
?>

 

注意:

因為是在雙引號中,所以使用分組的時候應該使用兩個反斜線,如:\1,而如果在單引號中,則使用一個反斜線就可以了,如:1
\1用於捕獲分組一種的內容:2012,\6用於捕獲分組6中的內容          
執行結果:


$time格式為:2012-06-23 03:30:31
替換後的格式為:2012年06月23日 03時30分31秒
Array
(
    [0] => 2012-06-23 03:30:31
    [1] => 2012
    [2] => 06
    [3] => 23
    [4] => 03
    [5] => 30
    [6] => 31
)

進階Regex

  除了 POSIX BRE 和 ERE 之外,libutilitis 還支援與TCL 8.2相容的進階Regex語
  法(ARE)。 通過為 stRegEx 參數增加首碼 "***:" 就可以開啟 ARE 模式,這個首碼覆
  蓋 bExtended 選項。基本上講,ARE 是 ERE 的超集。 它在 ERE 的基礎上進行了如下幾
  項擴充:

  1. 支援"懶惰匹配"(也叫"非貪婪匹配"或"最短匹配"):在 '?', '*', '+' 或 '{m,n}'
     後追加 '?' 符號就可以啟用最短匹配,使得該Regex子句在滿足條件的前提下匹
     配儘可能少的字元(預設是匹配儘可能多的字元)。例如:將 "a.*b" 作用於 "abab"
     時,將匹配整個串("abab"),若使用 "a.*?b",則將只匹配前兩個字元("ab")。

  2. 支援子運算式的向前引用匹配:在 stRegEx 中,可以使用 'n' 向前引用曾經定義的
     子運算式。如:"(a.*)1" 可匹配 "abcabc" 等。

  3. 無名子運算式:使用 "(?:運算式)" 的方式建立一個無名運算式, 無名運算式不返回
     到一個 'n' 匹配。

  4. 向前預判:要命中匹配,必須向前滿足指定條件。 向前預判分為肯定預判和否定預判
     兩種。肯定預判的文法為:"(?=運算式)",例如:"bai.*(?=yang)" 匹配 "bai yang"
     中的前四個字元("bai "),但在匹配時保證字串在 "bai.*" 後必須包含 "yang".
     否定判斷的文法為:"(?!運算式)", 例如:"bai.*(?!yang)" 匹配 "bai shan" 的前
     四個字元,但在匹配是保證字串在 "bai.*" 後不出現 "yang"。

  5. 支援模式切換首碼,在 "***:" 之後可以緊跟形如 "(?模式串)" 樣式的模式串,模式
     串影響其後運算式的語義和行為。模式串可以是一下字元的組合:

     b - 切換至 POSIX BRE 模式,覆蓋 bExtended 選項。
     e - 切換至 POSIX ERE 模式,覆蓋 bExtended 選項。
     q - 切換至文本字面匹配模式, 運算式中的字元都作為文本進行搜尋,取消一切正則
         語義。此模式將正則匹配退化為一次簡單字串尋找。"***=" 首碼是其快捷表示
         方式,意即:"***=" 等同於 "***:(?q)"。

     c - 執行大小寫敏感的匹配,覆蓋 bNoCase 選項。
     i - 執行忽略大小寫匹配,覆蓋 bNoCase 選項。

     n - 開啟行敏感的匹配:'^' 和 '$' 匹配行首和行尾;'.' 和否定集('[^...]')不
         匹配分行符號。此功能等同於 'pw' 模式串。覆蓋 bNewLine 選項。
     m - 等同於 'n'。
     p - '^' 和 '$' 只匹配整個字串的首尾,不匹配行;'.' 和否定集不匹配分行符號。
         覆蓋 bNewLine 選項。
     w - '^' 和 '$' 匹配行首和行尾;'.' 和否定集匹配分行符號。覆蓋 bNewLine 選項。
     s - '^' 和 '$' 只匹配整個字串的首尾,不匹配行;'.' 和否定集匹配分行符號。覆
         蓋 bNewLine 選項。ARE 狀態下預設使用此模式。

     x - 開啟擴充模式:在擴充模式中,將忽略運算式中的空白符和注釋符 '#' 後的內容
         例如:
         @code@
   (?x)
   s+ ([[:graph:]]+)      # first number
   s+ ([[:graph:]]+)      # second number
         @code@
         等同於 "s+([[:graph:]]+)s+([[:graph:]]+)"。
     t - 關閉擴充模式,不忽略空白符和注釋符後的內容。ARE 狀態下預設使用此模式。

  6. 與 BRE/ERE 模式不同的 Perl 風格字元類換碼序列:

 perl類    等效POSIX運算式   描述
    ----------------------------------------------------------------------------
 a        -                 響鈴字元
 A        -                 不論當前模式如何,僅匹配整個串的最開頭
 b        -                 退格字元 ('x08')
 B        -                 逸出字元本身 ('\')
 cX       -                 控制符-X (= X & 037)
 d        [[:digit:]]       10 進位數字 ('0' - '9')
 D        [^[:digit:]]      非數字
 e        -                 退出符 ('x1B')
 f        -                 換頁符 ('x0C')
 m        [[:<:]]           單詞開始位置
 M        [[:>:]]           單詞結束位置
 n        -                 分行符號 ('x0A')
 r        -                 斷行符號符 ('x0D')
 s        [[:space:]]       空白符
 S        [^[:space:]]      非空白符
 t        -                 定位字元 ('x09')
 uX       -                 16 位 UNICODE 字元 (X∈[0000 .. FFFF])
 UX       -                 32 位 UNICODE 字元 (X∈[00000000 .. FFFFFFFF])
 v        -                 縱向定位字元 ('x0B')
 w        [[:alnum:]_]      組成單詞的字元
 W        [^[:alnum:]_]     非單詞字元
 xX       -                 8 位字元 (X∈[00 .. FF])
 y        -                 單詞邊界(m 或 M)
 Y        -                 非單詞邊界
 Z        -                 不論當前模式如何,僅匹配整個串的最尾部
         -                 NULL,Null 字元
 X        -                 子運算式向前引用 (X∈[1 .. 9])
 XX       -                 子運算式向前引用或 8 進位表示的 8 字元
 XXX      -                 子運算式向前引用或 8 進位表示的 8 字元
 

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.