這篇文章介紹的內容是關於php的Regex ,有著一定的參考價值,現在分享給大家,有需要的朋友可以參考一下
Regex是一種描述字串結果的文法規則,是一個特定的格式化模式,可以匹配、替換、截取匹配的字串。常用的語言基本上都有Regex,如JavaScript、java等。其實,只有瞭解一種語言的正則使用,其他語言的正則使用起來,就相對簡單些。好了,開始寫正則了。
Regex在匹配字串時,遵循以下2個基本原則:
1.最左原則:Regex總是從目標字串的最左側開始,依次匹配,直到匹配到符合運算式要求的部分,或直到匹配目標字串的結束。
2.最長原則:對於匹配到的目標字串,Regex總是會匹配到符合Regex要求的最長的部分;即貪婪模式
那怎麼開始呢,首先從分隔字元開始寫起,常用包括 / ; #;~,用於表明一串正則的開始。如:‘/a.*a/’。當運算式有過多的逸出字元時,建議優先使用#,如url;
$str = 'http://baidu.com';$pattern = '/http:\/\/.*com/';//需要轉義/preg_match($pattern,$str,$match);var_dump( $match);
$str = 'http://baidu.com';$pattern = '#http://.*com#';//不需要轉義/preg_match($pattern,$str,$match);var_dump( $match);
知道開始和結尾的寫法了,接下來就是中間的判斷了。Regex是自左向右的順序使用原子和元字元進行拼接。比如'<b>zxcv</b>',進行匹配時,‘/<b>.*<\/b>/’,其中.*代表zxcv 。那麼通用原子和元字元有哪些呢?
• \d匹配一個數字字元。等價於 [0-9]。
• \D匹配一個非數字字元。等價於 [^0-9]。
• \f匹配一個換頁符。等價於 \x0c 和 \cL。
• \n匹配一個分行符號。等價於 \x0a 和 \cJ。
• \r匹配一個斷行符號符。等價於 \x0d 和 \cM。
• \s匹配任何空白字元,包括空格、定位字元、換頁符等等。等價於 [ \f\n\r\t\v]。
• \S匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。
• \t匹配一個定位字元。等價於 \x09 和 \cI。
• \v匹配一個垂直定位字元。等價於 \x0b 和 \cK。
• \w匹配包括底線的任何單詞字元。等價於’[A-Za-z0-9_]’。
• \W匹配任何非單詞字元。等價於 ‘[^A-Za-z0-9_]’。
• \xn匹配 n,其中 n 為十六進位轉義值。十六進位轉義值必須為確定的兩個數字長。例如,’\x41’ 匹配 “A”。’\x041’ 則等價於 ‘\x04’ & “1”。Regex中可以使用 ASCII 編碼。
• \nm標識一個八進位轉義值或一個反向參考。如果 \nm 之前至少有 nm 個獲得子運算式,則 nm 為反向參考。如果 \nm 之前至少有 n 個擷取,則 n 為一個後跟文字 m 的反向參考。如果前面的條件都不滿足,若 n 和 m 均為八位元字 (0-7),則 • \nm 將匹配八進位轉義值 nm。
• \nml如果 n 為八位元字 (0-3),且 m 和 l 均為八位元字 (0-7),則匹配八進位轉義值 nml。
• \un十六進位數字表示的 Unicode 字元。例如, \u00A9 匹配著作權符號(?)。
• . 匹配除 “\n” 之外的任何單個字元
• ^ 匹配輸入字串的開始位置。在字元域[]中表示取反,如'[^\w]'等於'\w';而^\w表示以單詞字元開頭。
• $ 匹配輸入字串的結束位置。例'\w$'表示以單詞字元結尾。
• ? 匹配前面的子運算式零次或一次 等價於 {0,1},例如,"do(es)?" 可以匹配 "do" 或 "does"。
• * 匹配前面的子運算式零次或多次,等價於{0,}。例如,zo* 能匹配 "z" 、 "zo"、'zoo'。
• + 匹配前面的子運算式一次或多次,等價於{1,}例如,'zo+' 能匹配 "zo" 以及 "zoo"。
• {n} n 為非負整數,匹配確定的 n 次。例如,'o{2}' 不能匹配 "Bob" 或‘Booob’,但是能匹配 "food" 中的兩個 o。
• {n,} n 為非負整數。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等價於 'o+'。'o{0,}' 則等價於 'o*'。
• {n,m} m 和 n 均為非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,"o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價於 'o?'。請注意在逗號和兩個數之間不能有空格。
• [] 字元集合(字元域)。匹配所包含的任意一個字元。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
• () 匹配 ()內的內容 並擷取這一匹配。搭配\n(n為大於1的整數),‘http://baidu.com’若運算式:‘(\w+) (:)\/\/.*\1’則匹配‘http://baidu.comhttp’,\1表示http。
• (?:) 匹 配 但不擷取匹配結果,不進行儲存供以後使用。這在使用 "或" 字元 (|) 來組合一個模式的各個部分是很有用。例如, 'industr(?:y|ies) 就是一個比 'industry|industries' 更簡略的運算式。上面運算式若改為'(?:\w+)(:)\/\/.*\1',則\1表示為:
• | x|y,匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 則匹配 "zood" 或 "food"。
• [-] 字元範圍。匹配指定範圍內的任一字元。例如,'[a-z]' 可以匹配 'a' 到 'z' 範圍內的任意小寫字母字元。
• (?=pattern)正 向預查,在任何匹配 pattern 的字串開始處匹配尋找字串。這是一個非擷取匹配,也就是說,該匹 配不需要擷取供以後使用。例如,'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹 配的搜尋,而不是從包含預查的字元之後開始。
• (?!pattern)負 向預查,在任何不匹配 pattern 的字串開始處匹配尋找字串。這是一個非擷取匹配,也就是說,該匹配不 需要擷取供以後使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。預查不消耗字元,也就是說,在一個匹配發生後,在最後一次匹配之後立即開始下一次匹配的搜 索,而不是從包含預查的字元之後開始
有時候最後定界符會有一個字母,如‘/as.*/i’,那這個i又是什麼呢,這就是模式修正符;
i表示在和模式進行匹配進不區分大小寫
m將模式視為多行,使用^和$表示任何一行都可以以Regex開始或結束
s如果沒有使用這個模式修正符號,元字元中的"."預設不能表示分行符號號,將字串視為單行
x表示模式中的空白忽略不計
eRegex必須使用在preg_replace替換字串的函數中時才可以使用(講這個函數時再說)
A以模式字串開頭,相當於元字元^
Z以模式字串結尾,相當於元字元$
URegex的特點:就是比較“貪婪”,使用該模式修正符可以取消貪婪模式
例:
$str = 'asddadsdasd'; $pattern = '/a.*d/'; preg_match($pattern,$str,$match); var_dump($match) ;//asddadsdasd; $str = 'asddadsdasd'; $pattern = '/a.*d/U';//$pattern = '/a.*?d/'; preg_match($pattern,$str,$match); var_dump($match) ;//asd
php常用正則函數;
匹配:preg_match()與preg_match_all()
1 preg_match($pattern,$subject,[array &$matches])
2 preg_match_all($pattern,$subject,array &$matches)
1隻會匹配一次,2會把所有符合的字串都匹配出來,並且放置到matches數組中,而且這兩個函數都有一個整形的返回 值。1是一維數組,2是二維數組
替換:preg_replace()
mixed preg_replace ( mixed $pattern , mixed $replacement , mixed $subject [, int $limit = -1 [, int &$count ]] )
搜尋subject中匹配pattern的部分, 以replacement進行替換。
參考文獻:http://www.jb51.net/article/15931.htm