當我們在做字串處理時,如果字串處理函數不能實現我們想要的時,我們就藉助正則來協助我們實現了。
一般使用正則的情況有:匹配、尋找、分割、尋找並替換,下面我們就將這幾種情況分別用PHP和Python語言來實現,並做一下對比。PHP正則採用:PCRE風格。
#1 匹配Math(並擷取出結果)(注意這裡是要擷取出匹配結果的,與不擷取結果有所不同)
Python:
#coding:utf-8 import re strs = '我愛P你y你t知h嗎o?n哈哈fe哈' patt = re.compile(r'^.*?(\w+).*?$',re.I) print patt.match(strs).group(1) #輸出 P
說明match的作用是一個匹配的過程,不是尋找。這個方法並不是完全符合,想要完全符合,可以在運算式末尾加上邊界匹配符'$'。 PHP:
<?php $strs = '我愛P你y你t知h嗎o?n哈哈fe哈'; preg_match('/^.*?(\w+).*?$/i',$strs,$m); var_dump($m[1]);
#輸出:string 'P' (length=1)
說明:preg_match()與python中的match一樣,在第一次匹配後 將會停止搜尋。而preg_match_all()不同於此, 它會一直搜尋subject 直到到達結尾。實際上,在PHP中Regex還可以這樣:
preg_match('/(\w+)/',$strs,$m);
#2 搜尋尋找Search Python:
patt = re.compile(r'(\w+)',re.I) print patt.search(strs).group(1) #輸出 P
說明search方法一樣,若尋找到了就立即返回,否則一直搜尋到字串末尾,在PHP中可以使用preg_match(_all) 來實現。 PHP:同上
#3 匹配分割 Python:
patt = re.compile(r'\w+',re.I) for i in patt.split(strs): #注意這裡要使用unicode對象輸出 print unicode(i,'utf-8') #以上輸出 ''' 我愛 你 你 知 嗎 ? 哈哈 哈'''
在PHP中可以使用preg_split()來實現 PHP:
<?php $strs = '我愛P你y你t知h嗎o?n哈哈fe哈'; $m = preg_split('/\w+/i',$strs); var_dump($m);
/**輸出:
array 0 => string '我愛' (length=6) 1 => string '你' (length=3) 2 => string '你' (length=3) 3 => string '知' (length=3) 4 => string '嗎' (length=3) 5 => string '?' (length=3) 6 => string '哈哈' (length=6) 7 => string '哈' (length=3)
**/
#4 搜尋尋找所有結果(ALL) Python:
print patt.findall(strs) #輸出 ['P', 'y', 't', 'h', 'o', 'n', 'fe']
在PHP中可使用preg_match_all() 來實現PHP:
<?php $strs = '我愛P你y你t知h嗎o?n哈哈fe哈'; preg_match_all('/(\w+)/i',$strs,$m); var_dump($m);
/**
array 0 => array 0 => string 'P' (length=1) 1 => string 'y' (length=1) 2 => string 't' (length=1) 3 => string 'h' (length=1) 4 => string 'o' (length=1) 5 => string 'n' (length=1) 6 => string 'fe' (length=2) 1 => array 0 => string 'P' (length=1) 1 => string 'y' (length=1) 2 => string 't' (length=1) 3 => string 'h' (length=1) 4 => string 'o' (length=1) 5 => string 'n' (length=1) 6 => string 'fe' (length=2)
**/
#5 尋找替換 實際上finditer()方法在python中不是尋找替換,它僅是返回一個順序訪問每一個匹配結果(Match對象)的迭代器
python:
for i in patt.finditer(strs): print i.group() #以上輸出 ''' P y t h o n fe '''
這和PHP中的preg_filter()有所不同,preg_filter()與preg_replace()都是執行一個Regex的搜尋和替換。在python中正則方法中,用於尋找替換的是:sub()與subn()。需要注意的是sub()返回的一個新字串,不是作用在原對象上。subn()返回的是一個以“新字串和替換的次數”組成的元組,也沒有作用到原對象上。
#替換三次 print patt.sub('99',strs,3) #輸出 '我愛99你99你99知h嗎o?n哈哈fe哈'
print patt.subn('99',strs) #輸出:是一個元組('我愛99你99你99知99嗎99?99哈哈99哈',7)
替換與引用
#這裡批量替換文章中的圖片的路徑(old_c 是文章的內容)
img_dir = 'test'
img_patt = re.compile('src=".*?/(\w+\.\w+)"')
new_c = img_patt.sub(r'src="./%s/\1"'%img_dir,old_c)
PHP:
#這裡批量替換文章中的圖片的路徑(old_c 是文章的內容)
img_dir = 'test' img_patt = re.compile('src=".*?/(\w+\.\w+)"') new_c = img_patt.sub(r'src="./%s/\1"'%img_dir,old_c)
#輸出:
string '我愛999你999你999知999嗎999?999哈哈999哈' (length=51)
另注 1 對於正則的基礎知識可以GOOGLE一下,Python正則的基礎知識也可以GOOGLE一下。 2 對於更多關於PHP PCRE風格的正則基礎,可以參看:http://cn2.php.net/manual/zh/regexp.introduction.php 3 另外有一點需要注意的是:對於處理字串能用字串函數處理的就用函數處理,千萬別用正則。