最近利用一周時間閱讀了《精通Regex(第3版)》前6章,希望能夠精通Regex,並且能夠撰寫《javascript深度理解Regex》這樣的文章。一周時間太短,我自認為僅僅是達到了“不再畏懼”、“更有信心”的程度,因而本文的目標只能是協助讀者“掌握”Regex。
我想Regex之所以難,主要體現在以下幾個方面:
1)Regex的符號晦澀難懂
2)不支援排版(至少javascript目前還不支援)
3)不能設定斷點,不能跟蹤調試
4)沒有真正的標準,不同工具所支援的Regex有許多細節上的差異
下文中如涉及Regex符號含義不明,請參閱<<javascriptRegex入門筆記(完整版)>>
Regex本質上是一整套的處理字串的模型,協助人們利用簡短的運算式來實現複雜的演算法。早期的Regex引擎只有三百多行代碼,發展到後來也不到1萬行代碼。打一個不恰當的比喻,利用Regex處理字串,就像是利用SQL處理資料。正如我們在處理資料時要避免使用複雜SQL,我們在處理字串時也應當避免使用複雜的Regex。下面是一段判斷IP地址合法性的代碼,比單純用Regex要簡單:
var isIPAdress = function(IPStr){ var pttrn = /^(\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3})$/; var IPObj = pttrn.exec(IPStr); var bool_result = false; if(IPObj){ //添加進一步的識別規則 if(IPStr==="0.0.0.0"){ bool_result = false; }else if(IPStr==="1.1.1.1"){ bool_result = false; }else if(IPObj[1]>=0 && IPObj[1]<=255 && IPObj[2]>=0 && IPObj[2]<=255 && IPObj[3]>=0 && IPObj[3]<=255 && IPObj[4]>=0 && IPObj[4]<=255){ bool_result = true; }else{ bool_result = false; } } return bool_result; }
調試資訊:
isIPAdress("10.1.6.255") true
isIPAdress("1.1.1.1") false
isIPAdress("10.1.a.255") false
淺議Regex的執行效率
執行下面這個javascript的Regex,比較ie/safari/firefox/chrome的執行效率,發現safari和firefox首次開啟時較慢但是再重新整理可做到瞬間完成,chrome和ie則是每次開啟和重新整理都慢,這說明javascript在ie和chrome上還是完全基於NFA演算法做最佳化,safari和firefox則可能用到了DFA演算法(也可能是緩衝)。
var p1 = /X(?:.+)+X/; iJs.put(p1.exec("=XX=========================="));
Regex對象:exec方法:
如果Regex使用了g作為尾碼,則會記住上次執行的結果,執行時會找後面匹配。
如果Regex沒有使用g作為尾碼,則每次執行的結果相同,都是取第一個匹配上的。如果使用了捕獲型括弧,則匹配結果可通過1/2/3/...尾碼獲得,參見前面給出的判斷IP地址合法性的代碼。
var pttrn = /bb/; iJs.showObject(pttrn.exec("abaabbaaa")); iJs.showObject(pttrn.exec("abaabbaaa")); pttrn = /a+/g; iJs.showObject(pttrn.exec("abaabbaaa")); iJs.showObject(pttrn.exec("abaabbaaa"));
調試資訊:
[Object] bb
|--[string] 0 ------------- bb
|--[number] index ------------- 4
|--[string] input ------------- abaabbaaa
|--[number] lastIndex ------------- 6
[Object] bb
|--[string] 0 ------------- bb
|--[number] index ------------- 4
|--[string] input ------------- abaabbaaa
|--[number] lastIndex ------------- 6
[Object] a
|--[string] 0 ------------- a
|--[number] index ------------- 0
|--[string] input ------------- abaabbaaa
|--[number] lastIndex ------------- 1
[Object] aa
|--[string] 0 ------------- aa
|--[number] index ------------- 2
|--[string] input ------------- abaabbaaa
|--[number] lastIndex ------------- 4