php Regex 匹配中日韓字元(GBK)

來源:互聯網
上載者:User

首先是這些非英文字元的編碼範圍:

這裡是幾個主要非英文語系字元範圍

2E80~33FFh:中日韓符號區。收容康熙字典部首、中日韓輔助部首、注音符號、日本假名、韓文音符,中日韓的符號、標點、帶圈或帶括符文數字、月份,以及日本的假名組合、單位、年號、月份、日期、時間等。

3400~4DFFh:中日韓認同表意文字擴充A區,總計收容6,582個中日韓漢字。

4E00~9FFFh:中日韓認同表意文字區,總計收容20,902個中日韓漢字。

A000~A4FFh:彝族文字區,收容中國南方彝族文字和字根。

AC00~D7FFh:韓文拼音組合字區,收容以韓文音符拼成的文字。

F900~FAFFh:中日韓相容表意文字區,總計收容302個中日韓漢字。

FB00~FFFDh:文字表現形式區,收容組合拉丁文字、希伯來文、阿拉伯文、中日韓直式標點、小符號、半形符號、全形符號等。

比如需要匹配所有中日韓非符號字元,那麼Regex應該是^[\u3400-\u9FFF]+$ 
理論上沒錯, 可是我到msn.co.ko隨便複製了個韓文下來, 發現根本不對, 詭異 
再到msn.co.jp複製了個'お', 也不得行..

然後把範圍擴大到^[\u2E80-\u9FFF]+$, 這樣倒是都通過了, 這個應該就是匹配中日韓文字的Regex了, 包括我們臺灣省還在盲目使用的繁體中文

而關於中文的Regex, 應該是^[\u4E00-\u9FFF]+$, 和論壇裡常被人提起的^[\u4E00-\u9FA5]+$很接近

需要注意的是論壇裡說的^[\u4E00-\u9FA5]+$這是專門用於匹配簡體中文的Regex, 實際上繁體字也在裡面, 我用測試器測試了下'中華人民共和國', 也通過了, 當然, ^[\u4E00-\u9FFF]+$也是一樣的結果

 

然後上面的^[\u4E00-\u9FA5]+$形式的Regexphp是不支援的。在stackoverflow上可以找到如下解決方案:

PCRE does not support the \uXXXX syntax. Use \x{XXXX} instead. See here.

Your \u2e80-\u9fff range is also equivalent to

\p{InCJK_Radicals_Supplement}\p{InKangxi_Radicals}\p{InIdeographic_Description_Characters}\p{InCJK_Symbols_and_Punctuation}\p{InHiragana}\p{InKatakana}\p{InBopomofo}\p{InHangul_Compatibility_Jamo}\p{InKanbun}\p{InBopomofo_Extended}\p{InKatakana_Phonetic_Extensions}\p{InEnclosed_CJK_Letters_and_Months}\p{InCJK_Compatibility}\p{InCJK_Unified_Ideographs_Extension_A}\p{InYijing_Hexagram_Symbols}\p{InCJK_Unified_Ideographs}

Don't forget to add the u modifier (/regex here/u) if you're dealing with UTF-8. If you're dealing with another multi-byte encoding, you must first convert it to UTF-8.

 

也就是說,php要這樣寫/[\x{2E80}-\x{9FFF}]+/u

 

另外,在實際操作的時候,我們可能發現我們使用preg_replace函數,會產生和我們預期不符的結果。

$str= '你好,這裡是賣咖啡!'; 

比如我們定義如上字串,然後使用preg_replace函數。這是編碼的問題,我們使用的匹配字串預設是utf-8編碼的,但是$str很可能是gbk的,這時候我們需要使用iconv函數先進行編碼轉化。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.