文章詳細的介紹了關於strlen,mb_strlen,substr(),mb_substr()及mb_strcut的區別和用法,有需要學習的同學可參考一下。
關於mb_*的字串分割函數使用:
在win下的配置
需要按裝php_mbstring.dll擴充
需要在php.ini在把php_mbstring.dll開啟
linux下的配置 可以在網上搜尋一下也很簡單
| 代碼如下 |
複製代碼 |
//測試時檔案的編碼方式要是UTF8 $str='中文a字1符'; echo strlen($str).' ';//14 echo mb_strlen($str,'utf8').' ';//6 echo mb_strlen($str,'gbk').' ';//8 echo mb_strlen($str,'gb2312').' ';//10 ?> |
結果分析:在strlen計算時,對待一個UTF8的中文字元是3個長度,所以“中文a字1符”長度是3*4+2=14,在mb_strlen計算時,選定內碼為UTF8,則會將一個中文字元當作長度1來計算,所以“中文a字1符”長度是6
mb_strlen 預設編碼可以通過
mb_internal_encoding()擷取到。
利用這兩個函數則可以聯合計算出一個中英文混排的串的佔位是多少(一個中文字元的佔位是2,英文字元是
1 echo (strlen($str) + mb_strlen($str,'UTF8')) / 2;
PHP內建的字串長度函數strlen無法正確處理中文字串,它得 到的只是字串所佔的位元組數。對於GB2312的中文編碼,strlen得到的值是漢字個數的2倍,而對於UTF-8編碼的中文,就是3倍的差異了(在 UTF-8編碼下,一個漢字佔3個位元組)。
字串分割
substr()函數可以分割文字,但要分割的文字如果包括中文字元往往會遇到問題,這時可以用mb_substr()/mb_strcut這個函數
mb_substr是按字來切分字元,而mb_strcut是按位元組來切分字元,但是都不會產生半個字元的現象.
substr()函數可以分割文字,但要分割的文字如果包括中文字元往往會遇到問題,這時可以用mb_substr()/mb_strcut這個函數,mb_substr()/mb_strcut的用法與substr()相似,只是在mb_substr()/mb_strcut最後要加入多一個參數,以設定字串的編碼,但是一般的伺服器都沒開啟php_mbstring.dll,需要在php.ini在把php_mbstring.dll開啟。
舉個例子:
| 代碼如下 |
複製代碼 |
echo mb_substr('這樣一來我的字串就不會有亂碼^_^', 0, 7, 'utf-8'); ?>
|
輸出:這樣一來我的字
| 代碼如下 |
複製代碼 |
echo mb_strcut('這樣一來我的字串就不會有亂碼^_^', 0, 7, 'utf-8'); ?> |
輸出:這樣一
從上面的例子可以看出,mb_substr是按字來切分字元,而mb_strcut是按位元組來切分字元,但是都不會產生半個字元的現象……
mbstring 函數的說明:
php的mbstring擴充模組提供了多位元組字元的處理能力,平常最常用的就是用mbstring來切分多位元組的中文字元,這樣可以避免出現半個字元的情況,由於是php的擴充,它的效能也要比一些自訂的多位元組切分函數要好上一些。
mbstring extension提供了幾個功能類似的函數,mb_substr和mb_strcut,看看手冊上對它們的解釋。
mb_substr
mb_substr() returns the portion of str specified by the start and length parameters.
mb_substr() performs multi-byte safe substr() operation based on number of characters. Position is sqlserver/42852.htm target=_blank >counted from the beginning of str. First character's position is 0. Second character position is 1, and so on.
mb_strcut
mb_strcut() returns the portion of str specified by the start and length parameters.
mb_strcut() performs equivalent operation as mb_substr() with different method. If start position is multi-byte character's second byte or larger, it starts from first byte of multi-byte character.
It subtracts string from str that is shorter than length AND character that is not part of multi-byte string or not being middle of shift sequence.
再舉個例子,有一段文字, 分別用mb_substr和mb_strcut來做切分:
PLAIN TEXT
CODE:
| 代碼如下 |
複製代碼 |
$str = '我是一串比較長的中文-www.webjx.com'; echo "mb_substr:" . mb_substr($str, 0, 6, 'utf-8'); echo " "; echo "mb_strcut:" . mb_strcut($str, 0, 6, 'utf-8'); ?> |
輸出結果如下:
mb_substr:我是一串比較
mb_strcut:我是
測試代碼:
| 代碼如下 |
複製代碼 |
/** * 字串分割 按字分割 * @param $content string * @param $length int * @param $etc string * @return string */ function Truncate($content, $length, $etc = '...') { if ($length == 0) { return ''; } elseif (mb_strlen($content,'utf-8') > $length) { $length -= min($length, mb_strlen($etc)); $charset = 'utf-8'; $content = mb_substr($content, 0, $length, $charset) . $etc; } return $content; } $str ='伏爾泰(1694~1778)法國資產階級啟蒙思想家,哲學家,史學家,文學家。伏爾泰原名F.M.阿魯埃。'; echo strlen($str);//字串長度 echo ' '; echo mb_strlen($str,'utf-8');//字串長度 echo ''; echo mb_strcut($str,0,35,'utf-8');//按位元組分割 echo ''; echo mb_substr($str,0,35,'utf-8');//按字 分割 echo ''; echo Truncate($str,35);//字串截取方法 |
http://www.bkjia.com/PHPjc/631281.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/631281.htmlTechArticle文章詳細的介紹了關於strlen,mb_strlen,substr(),mb_substr()及mb_strcut的區別和用法,有需要學習的同學可參考一下。 關於mb_*的字串分割函數使用:...