1. 截取GB2312中文字串
| 代碼如下 |
複製代碼 |
<?php //截取中文字串 function mysubstr($str, $start, $len) { $tmpstr = “”; $strlen = $start + $len; for($i = 0; $i < $strlen; $i++) { if(ord(substr($str, $i, 1)) > 0xa0) { $tmpstr .= substr($str, $i, 2); $i++; } else $tmpstr .= substr($str, $i, 1); } return $tmpstr; } ?> |
2. 截取utf8編碼的多位元組字串
| 代碼如下 |
複製代碼 |
<?php //截取utf8字串 function utf8Substr($str, $from, $len) { return preg_replace(‘#^(?:[x00-x7F]|[xC0-xFF][x80-xBF]+){0,’.$from.’}’. ‘((?:[x00-x7F]|[xC0-xFF][x80-xBF]+){0,’.$len.’}).*#s’, ‘$1′,$str); } ?> |
但是在英文和漢字混合的情況下會出現如下問題:
如果有這樣一個字串
為了截取該串的前10個字元,使用
| 代碼如下 |
複製代碼 |
if(strlen($str)>10) $str=substr($str,10)."…";
|
那麼,echo $str的輸出應該是"這是一個字…"
那麼要如何解決這個問題了,下面我來分享一個可以支援gb2312,gbk,big三種編碼。
例1
| 代碼如下 |
複製代碼 |
$len = 19; $text = "怎麼將新聞的很長的標題只顯示前面一些字,後面用.....來代替?"; echo strlen($text)<=$len ? $text : (substr($text,0,$len).chr(0)."...."); /****chr(0)不是null null是什麼都沒有,而chr(0)的值是0。表示成16進位是0x00,表示成二進位是00000000 雖然chr(0)不會顯示出什麼,但是他是一個字元。 當漢字被截斷時,根據編碼規則他總是要把後邊的其他字元拉過來一起作為漢字解釋,這就是出現亂碼的原因。而值為0x81到0xff與0x00組合始終都顯示為“空” 根據這一特點,在substr的結果後面補上一個chr(0),就可以防止出現亂碼了 注: 編碼 第一位元組 第二位元組 gb2312 0xa1-0xf7 0xa1-0xfe gbk 0x81-0xfe 0x81-0xfe 0x40-0x7e big5 0xa1-0xf7 0x81-0xfe 0x40-0x7e 其次這個是網上搜尋的,支援utf-8編碼,原作者不詳: *****/ function subString_UTF8($str, $start, $lenth) { $len = strlen($str); $r = array(); $n = 0; $m = 0; for($i = 0; $i < $len; $i++) { $x = substr($str, $i, 1); $a = base_convert(ord($x), 10, 2); $a = substr('00000000'.$a, -8); if ($n < $start){ if (substr($a, 0, 1) == 0) { }elseif (substr($a, 0, 3) == 110) { $i += 1; }elseif (substr($a, 0, 4) == 1110) { $i += 2; } $n++; }else{ if (substr($a, 0, 1) == 0) { $r[ ] = substr($str, $i, 1); }elseif (substr($a, 0, 3) == 110) { $r[ ] = substr($str, $i, 2); $i += 1; }elseif (substr($a, 0, 4) == 1110) { $r[ ] = substr($str, $i, 3); $i += 2; }else{ $r[ ] = ''; } if (++$m >= $lenth){ break; } } } return $r; } // End subString_UTF8; }// End String |
#由於此函數返回的是一個數組,因此要配合join函數來顯示字串:
#join('',subString_UTF8($str, $start, $lenth));
#在頁面顯示的時候還可以在此語句後面連一個"..."