js 正則學習小記之匹配字串最佳化篇

來源:互聯網
上載者:User

標籤:style   blog   class   tar   c   color   

原文:js 正則學習小記之匹配字串最佳化篇

昨天在《js 正則學習小記之匹配字串》談到 /"(?:\\.|[^"])*"/ 是個不錯的運算式,因為可以滿足我們的要求,所以這個運算式可用,但不一定是最好的。
從效能上來說,他非常糟糕,為什麼這麼說呢,因為 傳統型NFA引擎 遇到分支是從左往右匹配的,
所以它會用 \\. 去匹配每一個字元,發現不對後才用 [^"] 去匹配。
比如這樣一個字串: "123456\‘78\"90"
共 16 個字元,除了第一個 " 直接匹配成功,還剩餘 15 個,只有 2 個轉義(4 個字元),所以 \\. 會失敗 10 次,只有 2 次成功。
這 10 次匹配失敗,需要回溯後用 [^"] 才能匹配成功,當然最後一個 " 會直接匹配成功。

很明顯,正常的字串不可能全是轉義,正常的字串才是主流,當然不排除有人故意全轉義的情況。
所以這個正則需要10次回溯後才能匹配完成,如果字串增長到 1K 1M 腫麼破呢?
所以我們要修改下這個正則,前後換下位置嗎?
難道是 /"(?:[^"]|\\.)*"/ ? 呵呵,好像不太對,這樣的話轉義就不能被匹配了。

所以還要修改下 /"(?:[^"\\]|\\.)*"/ 這樣就OK了,遇到 \ 轉義就會用 \\. 去嘗試匹配。

可是還是有問題,因為我們在 [^"\\] 過濾掉了 \n 所以沒法匹配多行字元的情況。

js 中 字串用 \ 折行是允許的,但是修改後的 正則 沒法匹配這樣的字串了,所以我們還得繼續修複。
因為 . 沒法匹配換行,所以我們要用其他方式表達。
. 是用於匹配除分行符號之外的所有字元,難道我們要 [.\n] 來表示嗎?
這樣是不對的,因為 [] 字元集中的 . 不再表示除分行符號之外的所有字元,而是字元 . 也就是他本身一個字元而已。
那怎麼辦呢?
其實換個思路,
\d 表示 0-9
\D 表示 [^0-9]
那麼 [\d\D] 就表示所有了,不是麼。(新人朋友不知道能不能消化這個知識點。)
同理 [\s\S] [\w\W] 同樣可以。
所以 /"(?:[^"\\]|\\[\d\D])*"/ 這樣就滿足我們的要求了。

效果不錯。
回頭過來分分析下他現在的效能吧。
還是這個字串: "123456\‘78\"90" , 正則 /"(?:[^"\\]|\\[\d\D])*"/

共 16 個字元,除了第一個 " 直接匹配成功,還剩餘 15 個,有 2 個轉義(4 個字元),[^"\\] 能匹配成功 10 個字元,只有 2 次失敗。
為什麼不是 4 次失敗呢,明明有4個字元啊。\\ 雖然是2個字元,但是讀到第一個 \ 就匹配失敗,然後用 \\[\d\D] 匹配成功,
佔用掉了兩個字元 \\ 下次用下一個o開始匹配,所以只有2次回溯。
只有 2 次需要回溯,然後用 \\[\d\D] 匹配成功。當然最後一個 " 還是會直接匹配成功。
所以從 10 次回溯,減少到了 2 次,雖然正則比昨天臃腫了很多,但至少效能提升了不止一個等級。

OK,今天的分享完畢,明天見。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.