標籤:
1、簡單的Regex
import res=r‘abc‘re.findall(s,"aaaaaaaaaaaaaaa") #結果為[]re.findall(s,"abcaaaaaaaaaaaa") #結果為[‘abc‘]re.findall(s,"abcaaaaaabcaaaa") #結果為[‘abc‘,‘abc‘]
2、元字元
[] :指定一個字元集 例如:r‘t[io]p‘ 滿足的字串包括‘tip‘或‘top‘
加上^表示取反 例如:r‘t[^io]p‘ 滿足的字串包括除‘tip‘或‘top‘之外的字串
^ :匹配行首 r‘^abc‘ r‘\^abc‘
$ :匹配行尾
\ :\d=[0-9],\D=[^0-9],\s=[\t\n\r\f\v],\S=[^\t\n\r\f\v],\w=[a-zA-Z0-9],\W=[^a-zA-Z0-9]
\[或\\取消所有的元字元
. :匹配任一字元
* :匹配零次或多次
+ :匹配一次或多次
? :匹配一次或零次 例如:r"^010-?\d{8}$"
r=r"ab+?" #‘+?‘是最小匹配模式,非貪婪模式re.findall(r,‘abbbbbbbb‘) #結果是‘ab‘
{} :{m,n}最少重複m次,最多重複n次 {0,}=* {1,}=+ {0,1}=?
() :分組,經常和‘|’一起使用,例如email的Regexr‘\w{3}@\w+(\.com|\.cn)‘
注意:findall匹配的Regex中有分組,先返回匹配分組中的資料
例如:
s=‘adjadlk hello src=csvt yes jojjlk jlij hello src=python yes jopm‘r1=r‘hello src=.+ yes‘re.findall(r1,s) #結果[‘hello src=csvt yes‘,‘hello src=python yes‘]r1=r‘hello src=(.+) yes‘re.findall(r1,s) #結果[‘csvt‘,‘python‘]
|
3、Regex的編譯
編譯後的Regex效率比編譯前的要高許多,例如:
#匹配電話號碼r1=r"\d{3,4}-?\d{8}"p_tel=re.compile(r1) #編譯後的Regex效率要高很多p_tel.findall(‘010-12345678‘)
編譯時間,可以加一些參數,用來實現特殊功能和文法變更,例如:
csvt_re=re.compile(r‘csvt‘,re.I) #re.I表示在編譯時間忽略大小寫csvt_re.findall(‘CSVT‘) #結果是[‘CSVT‘]csvt_re.findall(‘csvt‘) #結果是[‘csvt‘]csvt_re.findall(‘CsVt‘) #結果是[‘CsVt‘]
4、執行匹配
(1)match():決定RE是否在字串剛開始的位置匹配。未匹配,返回None;否則,返回MatchObject對象
MatchObject執行個體方法
group():返回被RE匹配的字串
start():返回匹配開始的位置
end():返回匹配結束的位置
span():返回一個元組包含匹配(開始,結束)的位置
實際程式中,最常見的做法是將MatchObject儲存在一個變數中,然後檢查他是否為None
(2)search():掃描字串,找到這個RE匹配的位置。未匹配,返回None;否則,返回MatchObject對象
(3)findall():找到RE匹配的所有子串,並把他們作為一個列表返回
(4)finditer():找到RE匹配的所有子串,並把他們作為一個迭代器返回
5、模組層級函數:match()、search()、sub()、subn()、split()、findall()等
(1)sub()用法舉例:
rs=r‘c..t‘re.sub(rs,‘python‘,‘csvt caat cvvt cccc‘) #結果‘python python python cccc‘
(2)subn()用法,傳回值中比sub()多了一個資料,表示一共替換了多少次,比如
rs=r‘c..t‘re.sub(rs,‘python‘,‘csvt caat cvvt cccc‘) #結果(‘python python python cccc‘,3)
(3)split()的用法
s=‘121+334-34*33/44‘re.split(r‘[\+\-\*/]‘,s) #結果[‘121‘,‘334‘,‘34‘,‘33‘,‘44‘]
6、編譯標誌-flags
Python學習 之 Regex