php字元編碼轉換之gb2312轉為utf8_PHP教程

來源:互聯網
上載者:User
在php中字元編碼轉換我們一般會用到iconv與mb_convert_encoding進行操作,但是mb_convert_encoding在轉換效能上比iconv要差很多哦。

string iconv ( string in_charset, string out_charset, string str )
注意:第二個參數,除了可以指定要轉化到的編碼以外,還可以增加兩個尾碼://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 會自動將不能直接轉化的字元變成一個或多個近似的字元,//IGNORE 會忽略掉不能轉化的字元,而預設效果是從第一個非法字元截斷。
Returns the converted string or FALSE on failure.

string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 擴充庫,在 php.ini裡將; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多種輸入編碼,它會根據內容自動識別,但是執行效率比iconv差太多;

使用:

發現iconv在轉換字元”—”到gb2312時會出錯,如果沒有ignore參數,所有該字元後面的字串都無法被儲存。不管怎麼樣,這個”—”都無法轉換成功,無法輸出。 另外mb_convert_encoding沒有這個bug.

一般情況下用 iconv,只有當遇到無法確定原編碼是何種編碼,或者iconv轉化後無法正常顯示時才用mb_convert_encoding 函數.

代碼如下 複製代碼

/**
*自動判斷把gbk或gb2312編碼的字串轉為utf8
*能自動判斷輸入字串的編碼類別,如果本身是utf-8就不用轉換,否則就轉換為utf-8的字串
*支援的字元編碼類型是:utf-8,gbk,gb2312
*@$str:string 字串
*/
function yang_gbk2utf8($str){
$charset = mb_detect_encoding()($str,array('UTF-8','GBK','GB2312'));
$charset = strtolower($charset);
if('cp936' == $charset){
$charset='GBK';
}
if("utf-8" != $charset){
$str = iconv($charset,"UTF-8//IGNORE",$str);
}
return $str;
}

下面我接著看在轉換字元編碼的一些問題

用mb_detect_encoding($str);函數,使用該函數必須開啟php的extension=php_mbstring.dll擴充

代碼如下 複製代碼
$str="測試ing";
$cha=mb_detect_encoding($str);
echo $cha;
?>

我在gb2312頁面上輸的,不過輸出的結果是 UTF-8 很奇怪,還沒有找到原因。

我想統一轉換為UTF-8編碼,用下面方法

代碼如下 複製代碼
$str="測試ing";
$cha=mb_detect_encoding($str);
$s = iconv($cha,"UTF-8",$str);
var_dump($s);
?>

結果返回:
string(0) “”
真是奇怪,為什麼會這樣。

代碼如下 複製代碼
$str="測試ing";
$cha=mb_detect_encoding($str);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>


返回結果正確。發現該函數mb_detect_encoding($str);判斷還是不準確。不知是什麼原因。
函數string mb_convert_encoding ( string $str , string $to_encoding [, mixed $from_encoding ] )

可以轉換為指定編碼的字串,我寫了例子

代碼如下 複製代碼

$a="我很好";
echo mb_convert_encoding ($a,'UTF-8');
?>

可結果是:
??潞?潞?
現在的問題就是我如果把不同的字串編碼形式統一轉換為utf-8,如果事Crowdsourced Security Testing道改變嗎可以用iconv,但如果不知道該編碼該怎麼辦呢?

問題3:iconv問題,如果轉換的字串,第一個位元組的編碼大於一定的數會返回空.

如:

代碼如下 複製代碼
$str=chr(254)."測試ing".chr(254);
$s = iconv("GB2312","UTF-8",$str);
var_dump($s);
?>

返回
string(0) “”

mb_convert_encoding的用法見官方:

http://cn.php.net/manual/en/function.mb-convert-encoding.php

PHP中的另外一個函數iconv也是用來轉換字串編碼的,與上函數功能相似。

下面還有一些詳細的例子:
iconv — Convert string to requested character encoding
(PHP 4 >= 4.0.5, PHP 5)
mb_convert_encoding — Convert character encoding
(PHP 4 >= 4.0.6, PHP 5)

用法:
string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
需要先enable mbstring 擴充庫,在 php.ini裡將; extension=php_mbstring.dll 前面的 ; 去掉
mb_convert_encoding 可以指定多種輸入編碼,它會根據內容自動識別,但是執行效率比iconv差太多;

string iconv ( string in_charset, string out_charset, string str )
注意:第二個參數,除了可以指定要轉化到的編碼以外,還可以增加兩個尾碼://TRANSLIT 和 //IGNORE,其中 //TRANSLIT 會自動將不能直接轉化的字元變成一個或多個近似的字元,//IGNORE 會忽略掉不能轉化的字元,而預設效果是從第一個非法字元截斷。
Returns the converted string or FALSE on failure.

使用:
發現iconv在轉換字元”—”到gb2312時會出錯,如果沒有ignore參數,所有該字元後面的字串都無法被儲存。不管怎麼樣,這個”—”都無法轉換成功,無法輸出。 另外mb_convert_encoding沒有這個bug.
一般情況下用 iconv,只有當遇到無法確定原編碼是何種編碼,或者iconv轉化後無法正常顯示時才用mb_convert_encoding 函數.

from_encoding is specified by character code name before conversion. it can be array or string – comma separated enumerated list. If it is not specified, the internal encoding will be used.
/* Auto detect encoding from JIS, eucjp-win, sjis-win, then convert str to UCS-2LE */
$str = mb_convert_encoding($str, “UCS-2LE”, “JIS, eucjp-win, sjis-win”);
/* “auto” is expanded to “ASCII,JIS,UTF-8,EUC-JP,SJIS” */
$str = mb_convert_encoding($str, “EUC-JP”, “auto”);

例子:

代碼如下 複製代碼

$content = iconv("GBK", "UTF-8", $content);
$content = mb_convert_encoding($content, "UTF-8", "GBK");
?>

例子

這個可以根據輸入輸出的字元編碼進行轉換

代碼如下 複製代碼

function phpcharset($data, $to) {
if(is_array($data)) {
foreach($data as $key => $val) {
$data[$key] = phpcharset($val, $to);
}
} else {
$encode_array = array('ASCII', 'UTF-8', 'GBK', 'GB2312', 'BIG5');
$encoded = mb_detect_encoding($data, $encode_array);
$to = strtoupper($to);
if($encoded != $to) {
$data = mb_convert_encoding($data, $to, $encoded);
}
}
return $data;
}
?>

http://www.bkjia.com/PHPjc/632791.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/632791.htmlTechArticle在php中字元編碼轉換我們一般會用到iconv與mb_convert_encoding進行操作,但是mb_convert_encoding在轉換效能上比iconv要差很多哦。 string iconv ( string...

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.