PHP字串中用Regex匹配中文出現亂碼

來源:互聯網
上載者:User
Regex匹配中文
';$a = '天地不仁,以萬物為芻狗';$b = preg_replace('/萬/','萬',$a);echo $b;echo '

加上方括弧後替換結果出現亂碼


';$c = '天地不仁,以萬物為芻狗';$d = preg_replace('/[萬]/','萬',$a);echo $d; ?>

以上程式運行結果可以在http://nyaii.com/s/test.php看到。不知為何,為匹配的中文字元加上方括弧後就出現了亂碼。同樣的情形,在javascript中執行就一切正常。

 '天地不仁'.replace(/[天]/,'') //outputs "地不仁"

回複內容:

Regex匹配中文
';$a = '天地不仁,以萬物為芻狗';$b = preg_replace('/萬/','萬',$a);echo $b;echo '

加上方括弧後替換結果出現亂碼


';$c = '天地不仁,以萬物為芻狗';$d = preg_replace('/[萬]/','萬',$a);echo $d; ?>

以上程式運行結果可以在http://nyaii.com/s/test.php看到。不知為何,為匹配的中文字元加上方括弧後就出現了亂碼。同樣的情形,在javascript中執行就一切正常。

 '天地不仁'.replace(/[天]/,'') //outputs "地不仁"

加上UTF8修飾符即可

$d = preg_replace('/[萬]/u','萬',$a);

其餘修飾符請見
http://php.net/manual/en/reference.pcre.pattern.modifiers.php

以下為對於題主評論中的問題的補充內容

關於為什麼[]內就需要加u修飾符的問題,實際上嚴格來說,兩種場合你最好都加上u修飾符

但為什麼[]就會導致亂碼呢,這就要從位元組層面而不是字元層面來解釋了。

首先我們知道PHP的字串並不是Unicode進行儲存的,然後我們來看下這個代碼

我們可以拿到"萬"字的utf8十六進位編碼是e4b887
所以在沒有開啟utf8修飾符的時候,Regex引擎並沒有把"萬"當成一個獨立的字元,而是三個位元組的連續資料。

以下是結論:

  1. 當沒有[]進行匹配的時候,它尋找的是十六進位編碼值為 e4 b8 87 的三個連續字元,換句話說,實際上你的模式是\xe4\xb8\x87,但這種連續字元的出現在你的字串中,只有"萬"字能對上,所以替換了並不會有亂碼。但如果你的字串裡面可能還要包括四位元組的utf8編碼字元,例如emoji,可能就會導致問題了

  2. 當你在萬外麵包裝了[],Regex引擎實際上找的是[\xe4\xb8\x87],懂Regex的很快就能發現它實際上是匹配這三個字元的任意一個,所以這個時候就會影響到除了萬以外的別的漢字了

  3. 當你加了utf8修飾符之後,"萬"會被Regex當成是一個獨立的字元,所以不再會產生這個問題

至於javascript,因為它對字元編碼是原生的unicode,每個字元都會被當成一個字元而不是拆分成位元組資料,所以不會產生這個問題

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.