織夢中文分詞 輸入的詞語返回亂碼怎麼處理

來源:互聯網
上載者:User
織夢中文分詞 輸入的詞語返回亂碼怎麼辦
織夢的中文分詞 ,詞庫中明明有煩惱 ,憂愁這樣的詞語 ,但是測試輸入 ,返回亂碼 ,不知道是怎麼回事 ,還有這樣的代碼 else if($n>0xA13F && $n < 0xAA40) , 其中 0xA13F ,0xAA40 是怎麼來的 。 php中文分詞,織夢中文分詞

分享到:


------解決方案--------------------
if($n>0xA13F && $n < 0xAA40) 是全形符號

他用的是 gbk 字元集,如果你不是的,那一定會亂碼的
------解決方案--------------------
他首先用 ReviseString 方法對傳入串做預先處理
其中有
        //如果中文字元
if(isset($str[$i+1])){
$c = $str[$i].$str[$i+1];
就是說他認為一個中文是由兩個位元組組成的,這是 gbk 的編碼規則
而一個非 ascii 的 utf-8 字元可以是 2個、3個、4個...位元組組成
漢字的 utf-8 多由 3 個位元組組成

你只把檔案內容改為 utf-8 的,沒有改變處理規則
出現亂碼不就是很正常的了嗎?
------解決方案--------------------
調用前將 utf-8 轉成 gbk 的
調用後在把 貴賓卡 轉成 utf-8 的
這樣就不需要研究演算法了
  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.