mysql 字串長度計算實現代碼(gb2312+utf8)

來源:互聯網
上載者:User

PHP對中文字串的處理一直困擾於剛剛接觸PHP開發的新手程式員。下面簡要的剖析一下PHP對中文字串長度的處理:

PHP內建的函數如strlen()、mb_strlen()都是通過計算字串所佔位元組數來統計字串長度的,一個英文字元佔1位元組。例:

$enStr = 'Hello,China!';
echo strlen($enStr); // 輸出:12

而中文則不然,做中文網站一般會選擇兩種編碼:gbk/gb2312或是utf-8。utf-8能相容更多的字元,所以受到很多站長的喜愛。gbk與utf-8對中文的編碼不同,導致中文在gbk與utf-8編碼下所佔位元組也有差異。

gbk編碼下每個中文字元所佔位元組為2,例:

$zhStr = '您好,中國!';
echo strlen($zhStr); // 輸出:12

utf-8編碼下每個中文字元所佔位元組為3,例:

$zhStr = '您好,中國!';
echo strlen($zhStr); // 輸出:18

那麼如何計算這組中文字串的長度呢?有人可能會說gbk下擷取中文字串長度除以2,utf-8編碼下除以3不就行了嗎?但是您要考慮字串並不老實,99%的情況會以中英混合的情況出現。

這是WordPress中的一段代碼,主要思想就是先用正則將字串分解為個體單元,然後再計算單元的個數即字串的長度,代碼如下(只能處理utf-8編碼下的字串): 複製代碼 代碼如下:$zhStr = '您好,中國!';
$str = 'Hello,中國!';

// 計算中文字串長度
function utf8_strlen($string = null) {
// 將字串分解為單元
preg_match_all("/./us", $string, $match);
// 返回單元個數
return count($match[0]);
}
echo utf8_strlen($zhStr); // 輸出:6
echo utf8_strlen($str); // 輸出:9

utf8_strlen – 獲得UTF8編碼的字串的長度 複製代碼 代碼如下:/*
* 用於UTF8編碼的程式
* 獲得字串的長度,一個中文表示3個長度
* itlearner注釋
*/
function utf8_strlen($str) {
$count = 0;
for($i = 0; $i < strlen($str); $i++){
$value = ord($str[$i]);
if($value > 127) {
$count++;
if($value >= 192 && $value <= 223) $i++;
elseif($value >= 224 && $value <= 239) $i = $i + 2;
elseif($value >= 240 && $value <= 247) $i = $i + 3;
else die('Not a UTF-8 compatible string');
}
$count++;
}
return $count;
}

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.