們經常會用到瞭解字串長度的時候,在PHP裡,可以使用strlen()函數來實現。使用方法如下:
PHP strlen() 函數定義和用法
strlen() 函數返回字串的長度。
文法
strlen(string)
參數:string
描述:必需。規定要檢查的字串。
執行個體
代碼如下 |
複製代碼 |
<?php echo strlen("Hello world!"); ?> |
輸出:12
那麼對於中文怎麼處理
PHP內建的函數如strlen()、mb_strlen()都是通過計算字串所佔位元組數來統計字串長度的,一個英文字元佔1位元組。例:
$
代碼如下 |
複製代碼 |
enStr = ‘Hello,China!’; echo strlen($enStr); // 輸出:12 |
而中文則不然,做中文網站一般會選擇兩種編碼:gbk/gb2312或是utf-8。utf-8能相容更多的字元,所以受到很多站長的喜愛。gbk與utf-8對中文的編碼不同,導致中文在gbk與utf-8編碼下所佔位元組也有差異。
gbk編碼下每個中文字元所佔位元組為2,例:
代碼如下 |
複製代碼 |
$zhStr = ‘您好,中國!’; echo strlen($zhStr); // 輸出:12 |
utf-8編碼下每個中文字元所佔位元組為3,例:
代碼如下 |
複製代碼 |
$zhStr = ‘您好,中國!’; echo strlen($zhStr); // 輸出:18 |
那麼如何計算這組中文字串的長度呢?有人可能會說gbk下擷取中文字串長度除以2,utf-8編碼下除以3不就行了嗎?但是您要考慮字串並不老實,99%的情況會以中英混合的情況出現。
這是WordPress中的一段代碼,主要思想就是先用正則將字串分解為個體單元,然後再計算單元的個數即字串的長度,代碼如下(只能處理utf-8編碼下的字串):
代碼如下 |
複製代碼 |
$zhStr = ‘您好,中國!’; $str = ‘Hello,中國!’; // 計算中文字串長度 function utf8_strlen($string = null) { // 將字串分解為單元 preg_match_all(“/./us”, $string, $match); // 返回單元個數 return count($match[0]); } echo utf8_strlen($zhStr); // 輸出:6 echo utf8_strlen($str); // 輸出:9 |
下面是補充:準確計算字元個數和計算位元組數的區別
代碼如下 |
複製代碼 |
/假設當前頁面編碼為GBK <?php $str="中國abc"; echo strlen($str); //返回7,因為 GBK編碼每個中文兩個位元組,strlen是返回字串所佔的位元組長度。 echo "<hr>"; echo iconv_strlen($str,"GBK"); //返回5.iconv_strlen 是統計字串的字元數量 ?> 或者這麼寫 <?php $biaoti="中華人民共和國"; $zijie=strlen($biaoti); echo $zijie."<br>"; //<br> 換行 ?> //假設當前頁面編碼為UTF-8 <?php $str="中國abc"; echo strlen($str); //返回9,因為 UTF-8編碼每個中文三個位元組,strlen是返回字串所佔的位元組長度。 echo "<hr>"; echo iconv_strlen($str,"UTF-8"); //返回5.iconv_strlen 是統計字串的字元數量 ?> iconv_strlen 是無論是何種編碼,均能計算準確字元個數。 //假設當前頁面編碼為GBK <?php $str="中國abc"; echo strlen($str); //返回7,因為 GBK編碼每個中文兩個位元組,strlen是返回字串所佔的位元組長度。 echo "<hr>"; echo iconv_strlen($str,"GBK"); //返回5.iconv_strlen 是統計字串的字元數量 ?> //假設當前頁面編碼為UTF-8 <?php $str="中國abc"; echo strlen($str); //返回9,因為 UTF-8編碼每個中文三個位元組,strlen是返回字串所佔的位元組長度。 echo "<hr>"; echo iconv_strlen($str,"UTF-8"); //返回5.iconv_strlen 是統計字串的字元數量 ?>
|
iconv_strlen 是無論是何種編碼,均能計算準確字元個數。