通過使用多種方法來實現中文字串的完美截取,在未安裝mbstring 和 iconv擴充情況下支援UTF-8、GBK、GB2312、BIG5編碼,安裝上述擴充後支援的編碼更多,詳細情況參考函數說明。
共有三種方法
1、mb_substr() 需要 mbstring 擴充
2、iconv_substr() 需要 iconv擴充
3、正則匹配,預設支援
三種方法優先順序從上至下,上一種方法不可用則自動使用下一種方法。
本代碼從 Midnight 發布的 "字串截取, 支援常用編碼" 代碼最佳化而來
1.修複原代碼中對 mb_substr 和 iconv_substr 沒有進行return ,所以相當於無效調用
2.最佳化截取字串尾碼,可以自訂尾碼。預設為空白。
<?php/** * 字串截取,支援中文和其他編碼 * * @param string $str 需要轉換的字串 * @param string $start 開始位置 * @param string $length 截取長度 * @param string $charset 編碼格式 * @param string $suffix 截斷字串尾碼 * @return string */function substr_ext($str, $start=0, $length, $charset="utf-8", $suffix=""){ if(function_exists("mb_substr")){ return mb_substr($str, $start, $length, $charset).$suffix; } elseif(function_exists('iconv_substr')){ return iconv_substr($str,$start,$length,$charset).$suffix; } $re['utf-8'] = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}/"; $re['gb2312'] = "/[\x01-\x7f]|[\xb0-\xf7][\xa0-\xfe]/"; $re['gbk'] = "/[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]/"; $re['big5'] = "/[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|\xa1-\xfe])/"; preg_match_all($re[$charset], $str, $match); $slice = join("",array_slice($match[0], $start, $length)); return $slice.$suffix;}