Regex匹配中文
';$a = '天地不仁,以萬物為芻狗';$b = preg_replace('/萬/','萬',$a);echo $b;echo '加上方括弧後替換結果出現亂碼
';$c = '天地不仁,以萬物為芻狗';$d = preg_replace('/[萬]/','萬',$a);echo $d; ?>
以上程式運行結果可以在http://nyaii.com/s/test.php看到。不知為何,為匹配的中文字元加上方括弧後就出現了亂碼。同樣的情形,在javascript中執行就一切正常。
'天地不仁'.replace(/[天]/,'') //outputs "地不仁"
回複內容:
Regex匹配中文
';$a = '天地不仁,以萬物為芻狗';$b = preg_replace('/萬/','萬',$a);echo $b;echo '加上方括弧後替換結果出現亂碼
';$c = '天地不仁,以萬物為芻狗';$d = preg_replace('/[萬]/','萬',$a);echo $d; ?>
以上程式運行結果可以在http://nyaii.com/s/test.php看到。不知為何,為匹配的中文字元加上方括弧後就出現了亂碼。同樣的情形,在javascript中執行就一切正常。
'天地不仁'.replace(/[天]/,'') //outputs "地不仁"
加上UTF8修飾符即可
$d = preg_replace('/[萬]/u','萬',$a);
其餘修飾符請見
http://php.net/manual/en/reference.pcre.pattern.modifiers.php
以下為對於題主評論中的問題的補充內容
關於為什麼[]內就需要加u修飾符的問題,實際上嚴格來說,兩種場合你最好都加上u修飾符
但為什麼[]就會導致亂碼呢,這就要從位元組層面而不是字元層面來解釋了。
首先我們知道PHP的字串並不是Unicode進行儲存的,然後我們來看下這個代碼
我們可以拿到"萬"字的utf8十六進位編碼是e4b887
所以在沒有開啟utf8修飾符的時候,Regex引擎並沒有把"萬"當成一個獨立的字元,而是三個位元組的連續資料。
以下是結論:
當沒有[]進行匹配的時候,它尋找的是十六進位編碼值為 e4 b8 87 的三個連續字元,換句話說,實際上你的模式是\xe4\xb8\x87
,但這種連續字元的出現在你的字串中,只有"萬"字能對上,所以替換了並不會有亂碼。但如果你的字串裡面可能還要包括四位元組的utf8編碼字元,例如emoji,可能就會導致問題了
當你在萬外麵包裝了[],Regex引擎實際上找的是[\xe4\xb8\x87]
,懂Regex的很快就能發現它實際上是匹配這三個字元的任意一個,所以這個時候就會影響到除了萬以外的別的漢字了
當你加了utf8修飾符之後,"萬"會被Regex當成是一個獨立的字元,所以不再會產生這個問題
至於javascript,因為它對字元編碼是原生的unicode,每個字元都會被當成一個字元而不是拆分成位元組資料,所以不會產生這個問題