PHP解碼unicode編碼的中文字元代碼分享_PHP

來源:互聯網
上載者:User
關鍵字 PHP unicode
問題背景:
晚上在抓取某網站資料,結果在資料包中發現了這麼一串編碼的資料:"......\u65b0\u6d6a\u5fae\u535a......", 這其實是中文被unicode編碼後了的資料,我現在就是想解碼出中文來,上度娘搞了半天,試了很多的姿(方)勢(法),終於搞定了。

解決方案:
呵呵,老外就是給力啊, 猛戳這裡看老外給的解決方案

方案A(穩定版+推薦):

function replace_unicode_escape_sequence($match) {  return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');}$name = '\u65b0\u6d6a\u5fae\u535a';$str = preg_replace_callback('/\\\\u([0-9a-f]{4})/i', 'replace_unicode_escape_sequence', $name);echo $str; //輸出: 新浪微博 

//咱將上述方案A給封裝起來~~~(方案A穩定版+升級+推薦)class Helper_Tool{  static function unicodeDecode($data)  {      function replace_unicode_escape_sequence($match) {      return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE');    }       $rs = preg_replace_callback('/\\\\u([0-9a-f]{4})/i', 'replace_unicode_escape_sequence', $data);     return $rs;  }  }//調用$name = '\u65b0\u6d6a\u5fae\u535a';$data = Helper_Tool::unicodeDecode($name); //輸出新浪微博


方案B(次推薦):

<?phpfunction unicodeDecode($name){  $json = '{"str":"'.$name.'"}';  $arr = json_decode($json,true);  if(empty($arr)) return '';   return $arr['str'];}$name = '\u65b0\u6d6a\u5fae\u535a';echo unicodeDecode($name); //輸出: 新浪微博 

對於方案B, 我要特別重點說明下注意事項, 在好友 XAR (猛戳XAR部落格) 的支援人員下,總結出要處理的字串(即傳遞給函數unicodeDecode的參數$name的內容中一定不能包含單引號,否則就會導致解析失敗, 所以有必要的話可以藉助 str_replace()函數將非法字元格式設定化為合格字元)

  • 相關文章

    聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.