初級篇連結:http://www.jb51.net/article/99372.htm
上一篇我們說在這一篇裡,我們會介紹子運算式,向前向後尋找,回溯引用。到這一篇開始前除了回溯引用在一些場合不可替代以外,大部分情況下的Regex你應該都會寫了。
1.子運算式
子運算式的概念特別好理解。其實它就是將幾個字元的組合形式看做一個大的“字元”。不好理解?舉個栗子:我們要匹配類似IP地址這種形式的字元(暫且不考慮數值範圍的合理性,這個留作學完之後的思考題吧)。形如192.168.1.1這樣的地址我們怎麼寫運算式呢?
答案一 \d+.?\d+.?\d+.?\d+
不好,一個是太繁瑣,另一個是連位元都控制不了
答案二 \d+{1,3}.?\d+{1,3}.?\d+{1,3}.?\d+{1,3}
一般般,複雜但是起碼能把位元控制在合理範圍
答案三 (\d+{1,3}\.){3}\d+{1,3}\.
利用子運算式,將123.這種數字加小數點看做一個整體字元,對其規定重複匹配的次數,既簡潔,效果又好。所以只要你將幾個字元組合用圓括弧括起來,那麼你就可以把一個圓括弧內的內容當做一個字元,外面可以加我們之前講過的所有元字元來控制匹配。
2.向前向後尋找
現在,我們終於來到了向前向後尋找這一塊。為什麼說終於來到這了呢?還記得我們在初級篇最開始的例子嗎?
假如你在寫一個爬蟲,你得到了一個網頁的HTML源碼。其中有一段html
<html><body><h1>hello world</h1></body></html>
你想要把這個hello world提取出來
import rekey = r"<html><body><h1>hello world</h1></body></html>"#這段是你要匹配的文本p1 = r"(?<=<h1>).+?(?=</h1>)"#這是我們寫的Regex規則,你現在可以不理解啥意思pattern1 = re.compile(p1)#我們在編譯這段Regexmatcher1 = re.search(pattern1,key)#在源文本中搜尋符合Regex的部分print matcher1.group(0)#列印出來
這個Regex
p1 = r"(?<=<h1>).+?(?=<h1>)"
看到(?<=<h1>)
和 (?=<h1>)
了嗎?第一個?<=表示在被匹配字元前必須得有<h1>,後面的?=表示被匹配字元後必須有<h1>
簡單來說,就是你要匹配的字元是XX,但必須滿足形式是AXXB這樣的字串,那麼你就可以這樣寫Regex
p = r"(?<=A)XX(?=B)"
匹配到的字串就是XX。並且,向前尋找向後尋找不需要必須同時出現。如果你願意,可以唯寫滿足一個條件。
所以你也不需要記住哪個是向前尋找,哪個是向後尋找。只要記住?<=後面跟著的是首碼要求,?=後面跟的是尾碼要求。
本質上來說,向前尋找和向後尋找其實是匹配整個字串,即AXXB,但返回時僅僅返回一個XX。也就是說,如果你願意,完全可以避開向前向後尋找的方式,直接匹配帶有前尾碼的字串,然後做字串切片處理。
3.回溯引用
不同於前面的向前向後尋找,這一條有時候你未必繞的過去。在有些情況下,你還必須得用到回溯引用,所以你如果想擁有在實際應用中使用Regex,回溯引用是你應該瞭解和掌握的。
我們還是從最開始的例子來說。
你原本要匹配<h1></h1>之間的內容,現在你知道HTML有多級標題,你想把每一級的標題內容都提取出來。你也許會這樣寫:
p = r"<h[1-6]>.*?</h[1-6]>"
這樣一來,你就可以將HTML頁面內所有的標題內容全部匹配出來。即<h1></h1>到<h6></h6>的內容都可以被提取出來。但是我們之前說過,寫Regex困難的不是匹配到想要的內容,而是儘可能的不匹配到不想要的內容。在這個例子中,很有可能你就會被下面這樣的用例玩壞。
比方說
<h1>hello world</h3>
發現後面的</h3>了嗎?我們不管是怎麼寫出來這樣的標題的,但實實在在的是我們的Regex同樣會把這裡面的hello world匹配出來。這時候就是回溯引用的重要作用。下面就是一個樣本:
import rekey = r"<h1>hello world</h3>"p1 = r"<h([1-6])>.*?</h\1>"pattern1 = re.compile(p1)m1 = re.search(pattern1,key)print m1.group(0)#這裡是會報錯的,因為匹配不到,你如果將源字串改成</h1>
結尾就能看出效果
看到\1了嗎?原本那個位置應該是[1-6],但是我們寫的是\1,我們之前說過,轉義符\乾的活就是把特殊的字元轉成一般的字元,把一般的字元轉成特殊字元。普普通通的數字1被轉移成什麼了呢?在這裡1表示第一個子運算式,也就是說,它是動態,是隨著前面第一個子運算式的匹配到的東西而變化的。比方說前面的子運算式內是[1-6],在實際字串中找到了1,那麼後面的\1就是1,如果前面的子運算式在實際字串中找到了2,那麼後面的\1就是2。
類似的,\2,\3,....就代表第二個第三個子運算式。
所以回溯引用是Regex內的一個“動態”的Regex,讓你根據實際的情況變化進行匹配。
中級篇就到這裡,其實Regex還有很多細節還沒有寫出來,也有很多元字元我沒有交代,但掌握了綱要,懂得原理之後剩下的就類似於查表構造這種活了。
建議看到這的朋友看看《Regex必知必會》,初級篇和這篇中有幾個例子也是取材於此。
以上就是本文的全部內容,希望本文的內容對大家的學習或者工作能帶來一定的協助,如果有疑問大家可以留言交流,同時也希望多多支援雲棲社區!