phpRegex
通用模式
定界符,通常使用 "/"做為定界符開始和結束,也可以使用"#"。
什麼時候使用"#"呢?一般是在你的字串中有很多"/"字元的時候,因為正則的時候這種字元需要轉義,比如uri。
使用"/"定界符的代碼如下.
| 代碼如下 |
複製代碼 |
?$regex = '/^http://([w.]+)/([w]+)/([w]+).html$/i'; $str = 'http://www.youku.com/show_page/id_ABCDEFG.html'; $matches = array(); if(preg_match($regex, $str, $matches)){ var_dump($matches); } echo "n"; |
preg_match中的$matches[0]將包含與整個模式比對的字串。
使用"#"定界符的代碼如下.這個時候對"/"就不轉義!
?$regex = '#^http://([w.]+)/([w]+)/([w]+).html$#i';
$str = 'http://www.youku.com/show_page/id_ABCDEFG.html';
$matches = array();
if(preg_match($regex, $str, $matches)){
var_dump($matches);
}
echo "n";
修飾符:用於改變Regex的行為。
我們看到的('/^http://([w.]+)/([w]+)/([w]+).html/i')中的最後一個"i"就是修飾符,表示忽略大小寫,還有一個我們經常用到的是"x"表示忽略空格。
貢獻代碼:
?$regex = '/HELLO/';
$str = 'hello word';
$matches = array();
if(preg_match($regex, $str, $matches)){
echo 'No i:Valid Successful!',"n";
}
if(preg_match($regex.'i', $str, $matches)){
echo 'YES i:Valid Successful!',"n";
}
字元域:[w]用方括弧擴起來的部分就是字元域。
限定符:如[w]{3,5}或者[w]*或者[w]+這些[w]後面的符號都表示限定符。現介紹具體意義。
{3,5}表示3到5個字元。{3,}超過3個字元,{,5}最多5個,{3}三個字元。
* 表示0到多個
+ 表示1到多個。
脫字元號
^:
> 放在字元域(如:[^w])中表示否定(不包括的意思)——“反向選擇”
> 放在運算式之前,表示以當前這個字元開始。(/^n/i,表示以n開頭)。
注意,我們經常管""叫"跳脫字元"。用於轉義一些特殊符號,如".","/"
界符:Regex的形式一般如下:
/love/
其中位於“/”定界符之間的部分就是將要在目標對象中進行匹配的模式。
元字元:就是指那些在Regex中具有特殊意義的專用字元,可以用來規定其前置字元(即位於元字元前面的字元)在目標對象中的出現模式。
較為常用的元字元包括: “+”, “*”,以及 “?”。
“+”元字元規定其前置字元必須在目標對象中連續出現一次或多次
“*”元字元規定其前置字元必須在目標對象中出現零次或連續多次,
“?”元字元規定其前置字元必須在目標對象中連續出現零次或一次。
下面,就讓我們來看一下Regex元字元的具體應用。
/fo+/
因為上述Regex中包含“+”元字元(它前面的“o”是前置字元),表示可以與目標對象中的“fool”, “fo”等在字母f後面連續出現一個或多個字母o的字串相匹配。
除了元字元之外,使用者還可以精確指定模式在匹配對象中出現的頻率。例如,
/jim{2,6}/
上述Regex規定字元m可以在匹配對象中連續出現2-6次,因此,上述Regex可以同jimmy或jimmmmmy等字串相匹配。
其它幾個重要的元字元的使用方式。
s:用於匹配單個空格符,包括tab鍵和分行符號;
S:用於匹配除單個空格符之外的所有字元;
d:用於匹配從0到9的數字;
w:用於匹配字母,數字或底線;
W:用於匹配所有與w不匹配的字元;
. :用於匹配除分行符號之外的所有字元。
(說明:我們可以把s和S以及w和W看作互為逆運算)
下面,我們就通過執行個體看一下如何在Regex中使用上述元字元。
/s+/
上述Regex可以用於匹配目標對象中的一個或多個空白字元。
除了我們以上所介紹的元字元之外,Regex中還具有另外一種較為獨特的專用字元,即定位器。
定位器:用於規定匹配模式在目標對象中的出現位置。
較為常用的定位器包括: “^”, “$”, “b” 以及 “B”。
“^”定位器規定匹配模式必須出現在目標字串的開頭
“$”定位器規定匹配模式必須出現在目標對象的結尾
b定位器規定匹配模式必須出現在目標字串的開頭或結尾的兩個邊界之一
“B”定位器則規定匹配對象必須位於目標字串的開頭和結尾兩個邊界之內,即匹配對象既不能作為目標字串的開頭,也不能作為目標字串的結尾。同樣,我們
也可以把“^”和“$”以及“b”和“B”看作是互為逆運算的兩組定位器。舉例來說:
/^hell/
因為上述Regex中包含“^”定位器,所以可以與目標對象中以 “hell”, “hello”或 “hellhound”開頭的字串相匹配。
/ar$/
因為上述Regex中包含“$”定位器,所以可以與目標對象中以 “car”, “bar”或 “ar” 結尾的字串相匹配。
/bbom/
因為上述Regex模式以“b”定位器開頭,所以可以與目標對象中以 “bomb”, 或 “bom”開頭的字串相匹配。
/manb/
因為上述Regex模式以“b”定位器結尾,所以可以與目標對象中以 “human”, “woman”或 “man”結尾的字串相匹配。
為了能夠方便使用者更加靈活的設定匹配模式,Regex允許使用者在匹配模式中指定某一個範圍而不局限於具體的字元。例如:
/[A-Z]/
上述Regex將會與從A到Z範圍內任何一個大寫字母相匹配。
/[a-z]/
上述Regex將會與從a到z範圍內任何一個小寫字母相匹配。
/[0-9]/
上述Regex將會與從0到9範圍內任何一個數字相匹配。
/([a-z][A-Z][0-9])+/
上述Regex將會與任何由字母和數字組成的字串,如 “aB0” 等相匹配。這裡需要提醒使用者注意的一點就是可以在Regex中使用 “()” 把字串組合在一起。
“()”符號:包含的內容必須同時出現在目標對象中。因此,上述Regex將無法與諸如 “abc”等的字串匹配,因為“abc”中的最後一個字元為字母而非數字。
如果我們希望在Regex中實作類別似編程邏輯中的“或”運算,在多個不同的模式中任選一個進行匹配的話,可以使用管道符: “|”。例如:
/to|too|2/
上述Regex將會與目標對象中的 “to”, “too”, 或 “2” 相匹配。
否定符:“[^]”。與我們前文所介紹的定位器 “^” 不同,否定符 “[^]”規定目標對象中不能存在模式中所規定的字串。例如:
/[^A-C]/
上述字串將會與目標對象中除A,B,和C之外的任何字元相匹配。一般來說,當“^”出現在 “[]”內時就被視做否定運算子;而當“^”位於“[]”之外,或沒有“[]”時,則應當被視做定位器。
最後,當使用者需要在Regex的模式中加入元字元,並尋找其匹配對象時,可以使用
轉義符:“”。例如:
/Th*/
上述Regex將會與目標對象中的“Th*”而非“The”等相匹配。
實際經驗介紹
還是得說說 ^ 和 $ 他們是分別用來匹配字串的開始和結束,以下分別舉例說明:
“^The”:開頭一定要有”The”字串;
“of despair$”:結尾一定要有”of despair” 的字串;
那麼,
“^abc$”:就是要求以abc開頭和以abc結尾的字串,實際上是只有abc匹配;
“notice”:匹配包含notice的字串;
你可以看見如果你沒有用我們提到的兩個字元(最後一個例子),就是說模式(Regex)可以出現在被檢驗字串的任何地方,你沒有把他鎖定到兩邊。
接著,說說 ‘*’ ‘+’ 和 ‘?’
他們用來表示一個字元可以出現的次數或者順序,他們分別表示:
“zero or more”相當於{0,}
“one or more”相當於{1,}
“zero or one.”相當於{0,1}
這裡是一些例子:
“ab*”:和ab{0,}同義,匹配以a開頭,後面可以接0個或者N個b組成的字串(”a”, “ab”, “abbb”, 等);
“ab+”:和ab{1,}同義,同上條一樣,但最少要有一個b存在 (”ab” “abbb”等);
“ab?”:和ab{0,1}同義,可以沒有或者只有一個b;
“a?b+$”:匹配以一個或者0個a再加上一個以上的b結尾的字串。
要點:’*’ ‘+’ 和 ‘?’ 只管它前面那個字元。
你也可以在大括弧裡面限制字元出現的個數,比如:
“ab{2}”: 要求a後面一定要跟兩個b(一個也不能少)(”abb”);
“ab{2,}”: 要求a後面一定要有兩個或者兩個以上b(如”abb” “abbbb” 等);
“ab{3,5}”: 要求a後面可以有2-5個b(”abbb”, “abbbb”, or “abbbbb”)。
現在我們把一定幾個字元放到小括弧裡,比如:
“a(bc)*”: 匹配 a 後面跟0個或者一個”bc”;
“a(bc){1,5}”: 一個到5個 “bc”;
還有一個字元 ‘|’,相當於OR操作:
“hi|hello”: 匹配含有”hi” 或者 “hello” 的 字串;
“(b|cd)ef”: 匹配含有 “bef” 或者 “cdef”的字串;
“(a|b)*c”: 匹配含有這樣多個(包括0個)a或b,後面跟一個c的字串;
一個點(’.’)可以代表所有的單一字元,不包括” ”
如果,要匹配包括” ”在內的所有單個字元,怎麼辦?
用’[ .]’這種模式。
“a.[0-9]”: 一個a加一個字元再加一個0到9的數字;
“^.{3}$”: 三個任一字元結尾。
中括弧括住的內容只匹配一個單一的字元
“[ab]”: 匹配單個的 a 或者 b ( 和 “a│b” 一樣);
“[a-d]”: 匹配’a’ 到’d’的單個字元 (和”a│b│c│d” 還有 “[abcd]”效果一樣);
一般我們都用[a-zA-Z]來指定字元為一個大小寫英文:
“^[a-zA-Z]”: 匹配以大小寫字母開頭的字串;
“[0-9]%”: 匹配含有 形如 x% 的字串;
“,[a-zA-Z0-9]$”: 匹配以逗號再加一個數字或字母結尾的字串;
你也可以把你不想要得字元列在中括弧裡,你只需要在總括弧裡面使用’^’ 作為開頭 “%[^a-zA-Z]%” 匹配含有兩個百分比符號裡面有一個非字母的字串。
要點:^用在中括弧開頭的時候,就表示排除括弧裡的字元。
為了PHP能夠解釋,你必須在這些字元面前後加”,並且將一些字元轉義。
不要忘記在中括弧裡面的字元是這條規路的例外—在中括弧裡面,所有的特殊字元,包括(”),都將失去他們的特殊性質 “[*+?{}.]”匹配含有這些字元的字串:
還有,正如regx的手冊告訴我們:”如果列表裡含有’]’,最好把它作為列表裡的第一個字元(可能跟在’^’後面)。如果含有’-’,最好把它放在最前面或者最後面
, or 或者一個範圍的第二個結束點[a-d-0-9]中間的‘-’將有效。
看了上面的例子,你對{n,m}應該理解了吧。要注意的是,n和m都不能為負整數,而且n總是小於m。這樣,才能 最少匹配n次且最多匹配m次。如”p{1,5}”將匹配
“pvpppppp”中的前五個p
下面說說以開頭的
b 書上說他是用來匹配一個單詞邊界,就是…比如’veb’,可以匹配love裡的ve而不匹配very裡有ve
B 正好和上面的b相反。
Regex的其他用法
提取字串
ereg() and eregi() 有一個特性是允許使用者通過Regex去提取字串的一部分(具體用法你可以閱讀手冊)。比如說,我們想從 path/URL 提取檔案名稱,下面的代
碼就是你需要:
ereg(”([^\/]*)$”, $pathOrUrl, $regs);
echo $regs[1];
進階的代換
ereg_replace() 和 eregi_replace()也是非常有用的,假如我們想把所有的間隔負號都替換成逗號:
ereg_replace(”[ t]+”, “,”, trim($str));
以下為引用的內容:
preg_match()和preg_match_all()
preg_quote()
preg_split()
preg_grep()
preg_replace()
函數的具體使用,我們可以通過PHP手冊來找到,下面分享一些平時積累的Regex:
匹配action屬性
以下為引用的內容:
| 代碼如下 |
複製代碼 |
$str = ''; $match = ''; preg_match_all('/s+action="(?!http:)(.*?)"s/', $str, $match); print_r($match);
|
在正則中使用回呼函數
以下為引用的內容:
| 代碼如下 |
複製代碼 |
/** * replace some string by callback function * */ function callback_replace() { $url = 'http://esfang.house.sina.com.cn'; $str = ''; $str = preg_replace ( '/(?<=saction=")(?!http:)(.*?)(?="s)/e', 'search($url, \1)', $str ); echo $str; } function search($url, $match){ return $url . '/' . $match; }
|
帶斷言的正則匹配
以下為引用的內容:
| 代碼如下 |
複製代碼 |
$match = ''; $str = 'xxxxxx.com.cn bold font paragraph text '; preg_match_all ( '/(?<=<(w{1})>).*(?=)/', $str, $match ); echo "匹配沒有屬性的HTML標籤中的內容:"; print_r ( $match ); |
替換HTML源碼中的地址
以下為引用的內容:
| 代碼如下 |
複製代碼 |
$form_html = preg_replace ( '/(?<=saction="|ssrc="|shref=")(?!http:|javascript)(.*?)(?="s)/e', 'add_url($url, '\1')', $form_html ); |
元字元
在上面的例子中,^ 、d 及 $ 等這些符號,代表了特定的匹配意義,我們稱之為元字元,常用的元字元如下:
| 元字元 |
說明 |
| . |
匹配除分行符號意外的任一字元 |
| w |
匹配字母或數字或底線 |
| s |
匹配任意的空白符 |
| d |
匹配數字 |
| b |
匹配單詞的開始或結束 |
| ^ |
匹配字串的開始 |
| $ |
匹配字串的結束 |
| [x] |
匹配x字元,如匹配字串中的 a、b 和 c 字元 |
| W |
w的反義,即匹配任意非字母,數字,底線和漢字的字元 |
| S |
s的反義,即匹配任意非空白符的字元 |
| D |
d的反義,即匹配任意非數位字元 |
| B |
b的反義,即不是單詞開頭或結束的位置 |
| [^x] |
匹配除了 x 意外的任一字元,如 [^abc] 匹配除了 abc 這幾個字母之外的任一字元 |
http://www.bkjia.com/PHPjc/632170.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/632170.htmlTechArticlephpRegex 通用模式 定界符,通常使用 /做為定界符開始和結束,也可以使用#。 什麼時候使用#呢?一般是在你的字串中有很多/字元的時...