瞭解Regex之前,需要掌握一些常用的Regex的基礎知識,這些如果能記住最好記住,記不住需要用的時候能查到就行,就幾個特殊字元,所以說Regex玩的就是特殊,具體大家可以查看更加詳細的說明。
preg_match_all函數具體說明大家可以查看PHP手冊,本文使用preg_match_all用於測試正則表達的效果。
執行個體代碼:
$html = 'php100php1002php1003'; |
執行個體要求:分別將每一個DIV元素的ID和內容取出,如biuuu,biuuu_2,biuuu_3,php100,php1002和php1003(一些常用的抓站方法就是這樣匹配的)
分析:字串是一個簡單的HTML元素,每一個DIV元素對應該一個ID和內容,並且是獨立的,首先考慮如何取出一個DIV內的ID值和內容,如:php100,然後匹配其它類似的元素。一個DIV中需要取出兩個值,也就是兩個匹配的運算式,第一個運算式用於匹配ID值(biuuu),第二個運算式用於匹配ID的內容(php100),Regex常用的運算式使用小括弧,那麼前面的元素將會變成如下形式:
好,使用如上小括弧把需要匹配的地區進行了劃分,接下來就是如何匹配各個運算式內的內容,我們猜想一個ID可能是字母,數字或底線,那這就變得簡單了,使用中括弧就可以實現,如下:
運算式1:[a-zA-Z0-9_]+ (表示匹配大小寫字母,數字和底線)
那如何匹配運算式2,因為ID的內容可以是任意的字元,但是要注意,不能匹配<或>字元,因為如果匹配這兩個字元將會把後面使用的DIV都匹配出來,因此需要排除這兩個字元開始的元素,也就是不匹配以<或>字元,如下:
運算式2:[^<>]+ (表示不匹配<和>字元)
這樣,需要匹配的子運算式就實現了,但是還要需要匹配一個
http://www.bkjia.com/PHPjc/446628.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/446628.htmlTechArticle瞭解Regex之前,需要掌握一些常用的Regex的基礎知識,這些如果能記住最好記住,記不住需要用的時候能查到就行,就幾個特...