今晚在寫架構的表單驗證類時,需要判斷某個字串長度是否在指定區間內,很自然地,想到了PHP中的strlen函數。
.代碼如下:
$str = 'Hello world!';
echo strlen($str); // 輸出12
然而在PHP內建的函數中,strlen及mb_strlen都是通過計算字串所佔位元組數來計算長度的,在不同的編碼情況下,中文所佔的位元組數是不同的。在GBK/GB2312下,中文字元佔2個位元組,而在UTF-8下,中文字元佔3個位元組。
.代碼如下:
$str = '你好,世界!';
echo strlen($str); // GBK或GB2312下輸出12,UTF-8下輸出18
而我們在判斷字串長度時往往需要判斷的是字元的數量,而非字串所佔位元組數,如在UTF-8下的這段PHP代碼:
.代碼如下:
$name = '張耕暢';
$len = strlen($name);
// 輸出 FALSE,因為在UTF-8下三個中文佔9個位元組
if($len >= 3 && $len <= 8){
echo 'TRUE';
}else{
echo 'FALSE';
}
那麼有什麼方便而實用的方法可以獲得含中文字串的長度呢?可以用正則計算出中文字元的個數,在GBK/GB2312編碼下除以2,UTF-8編碼下則除以3,最後再加上非中文字串的長度,但這樣未免太過麻煩。
WordPress這麼一段代碼,借鑒如下:
.代碼如下:
$str = 'Hello,世界!';
preg_match_all('/./us', $str, $match);
echo count($match[0]); // 輸出9
思想是用Regex將字串分割成單個字元,並直接用count計算出匹配到的字元數,便是我們想要的結果了。
但以上代碼在UTF-8編碼下並不能處理GBK/GB2312的中文字串,因為GBK/GB2312的中文字元會被識別為兩個字元而計算出來的中文字元數量會翻倍,於是我想到了這麼一個辦法:
.代碼如下:
$tmp = @iconv('gbk', 'utf-8', $str);
if(!empty($tmp)){
$str = $tmp;
}
preg_match_all('/./us', $str, $match);
echo count($match[0]);
可相容GBK/GB2312及UTF-8編碼,經小量資料測試通過,但暫未確定是否完全正確,盼有大牛指點一二。
以上本意是為了架構可以相容多種編碼格式,但一般在日常開發中,一個項目是已經可以確定為何種編碼的,因此可以使用以下函數來方便地擷取字串長度:
.代碼如下:
int iconv_strlen ( string $str [, string $charset = ini_get("iconv.internal_encoding") ] )