re模組包含對 Regex。本章會對re模組主要特徵和Regex進行介紹。
什麼是Regex
Regex是可以匹配文本片段的模式。最簡單的Regex就是一般字元串,可以匹配其自身。換包話說,Regex’python’ 可以匹配字串’python’ 。你可以用這種匹配行為搜尋文本中的模式,並且用計算後有值並發特定模式,或都將文本進行分段。
** 萬用字元
Regex可以匹配多於一個的字串,你可以使用一些特殊字元建立這類模式。比如點號(.)可以匹配任何字元。在我們用window 搜尋時用問號(?)匹配任意一位字元,作用是一樣的。那麼這類符號就叫 萬用字元。
** 對特殊字元進行轉義
通過上面的方法,假如我們要匹配“python.org”,直接用用‘python.org’可以嗎?這麼做可以,但這樣也會匹配“pythonzorg”,這可不是所期望的結果。
好吧!我們需要對它進行轉義,可以在它前面加上發斜線。因此,本例中可以使用“python\\.org”,這樣就只會匹配“python.org”了。
** 字元集
我們可以使用中括弧([ ])括住字串來建立字元集。可以使用範圍,比如‘[a-z]’能夠匹配a到z的任意一個字元,還可以通過一個接一個的方式將範圍聯合起來使用,比如‘[a-zA-Z0-9]’能夠匹配任意大小寫字母和數字。
反轉字元集,可以在開頭使用^字元,比如‘[^abc]’可以匹配任何除了a、b、c之外的字元。
** 選擇符
有時候只想匹配字串’python’ 和 ’perl’ ,可以使用選擇項的特殊字元:管道符號(|) 。因此, 所需模式可以寫成’python|perl’ 。
** 子模式
但是,有些時候不需要對整個模式使用選擇符---只是模式的一部分。這時可以使用圓括弧起需要的部分,或稱子模式。 前例可以寫成 ‘p(ython | erl)’
** 可選項
在子模式後面加上問號,它就變成了可選項。它可能出現在匹配字串,但並非必須的。
r’(heep://)?(www\.)?python\.org’
只能匹配下列字元:
‘http://www.python.org’
‘http://python.org’
‘www.python.org’
‘python.org’
** 重複子模式
(pattern)* : 允許模式重複0次或多次
(pattern)+ : 允許模式重複1次或多次
(pattern){m,n} : 允許模式重複m~ n 次
例如:
r’w * \.python\.org’ 匹配 ‘www.python.org’ 、’.python.org’ 、’wwwwwww.python.org’
r’w + \.python\.org’ 匹配 ‘w.python.org’ ;但不能匹配 ’.python.org’
r’w {3,4}\.python\.org’ 只能匹配‘www.python.org’ 和‘wwww.python.org’
re模組的內容
re模組中一些重要的函數:
re.compile 將Regex轉換為模式對象,可以實現更有效率的匹配。
re.search 會在給定字串中尋找第一個匹配給正則表式的子字串。找到函數返回MatchObject(值為True),否則返回None(值為False) 。因為傳回值的性質,所以該函數可以用在條件陳述式中:
if re.serch(pat, string):
print ‘found it !’
re.math 會在給定字串的開頭匹配Regex。因此,re.math(‘p’ , ‘python’)返回真,re.math(‘p’ , ‘www.python’) 則返回假。
re.split 會根據模式的匹配項來分割字串。
>>> import re>>> some_text = 'alpha , beta ,,,gamma delta '>>> re.split('[,]+',some_text)['alpha ', ' beta ', 'gamma delta ']
re. findall以列表形式返回給定模式的所有匹配項。比如,要在字串中尋找所有單詞,可以像下面這麼做:
>>> import re>>> pat = '[a-zA-Z]+'>>> text = '"Hm...err -- are you sure?" he said, sounding insecure.'>>> re.findall(pat,text)['Hm', 'err', 'are', 'you', 'sure', 'he', 'said', 'sounding', 'insecure']
re.sub的作用在於:使用給定的替換內容將匹配模式的子符串(最左端並且重疊子字串)替換掉。
>>> import re>>> pat = '{name}'>>> text = 'Dear {name}...'>>> re.sub(pat, 'Mr. Gumby',text)'Dear Mr. Gumby...'
re.escape 函數,可以對字串中所有可能被解釋為正則運算子的字元進行轉義的應用函數。
如果字串很長且包含很多特殊字元,而你又不想輸入一大堆反斜線,可以使用這個函數:
>>> re.escape('www.python.org')'www\\.python\\.org'>>> re.escape('but where is the ambiguity?')'but\\ where\\ is\\ the\\ ambiguity\\?'
匹配對象和組
簡單來說,組就是放置在圓括弧裡內的子模組,組的序號取決於它左側的括弧數。組0就是整個模組,所以在下面的模式中:
‘There (was a (wee) (cooper)) who (lived in Fyfe)’
包含組有:
0 There was a wee cooper who lived in Fyfe
1 was a wee cooper
2 wee
3 cooper
4 lived in Fyfe
re 匹配對象的重要方法
下面看執行個體:
>>> import re>>> m = re.match(r'www\.(.*)\..{3}','www.python.org')>>> m.group()'www.python.org'>>> m.group(0)'www.python.org'>>> m.group(1)'python'>>> m.start(1)4>>> m.end(1)10>>> m.span(1)(4, 10)
group方法返回模式中與給定組匹配的字串,如果沒有組號,預設為0 ;如上面:m.group()==m.group(0) ;如果給定一個組號,會返回單個字串。
start 方法返回給定組匹配項的開始索引,
end方法返回給定組匹配項的結束索引加1;
span以元組(start,end)的形式返回給組的開始和結束位置的索引。
----------------------------
Regex應該是不容易理解的一個知識點;python沒意思的基礎終於學完了。雖然學的不紮實,但大體有了個印象;後面的將會非常有意思,讀取檔案,編寫圖形視窗,串連資料庫,web編程....