php 一元分詞演算法執行個體代碼

來源:互聯網
上載者:User
一元分詞:指語句中每個字都成詞,按字切分,不去組合,類似英文單詞。UTF8編碼下一個字元如果首字元ASCII碼不大於192則只佔1個位元組 。如果首字元ASCII碼大於192小於224則佔用2個位元組,否則佔用3個位元組 ,一元分詞需要在mysql的my.ini檔案中增加 ft_min_word_len=1

代碼如下:

/** * 一元分詞演算法 * 可以使用mysql查詢語句 show variables like '%ft%' 查看mysql全文檢索搜尋相關設定 * * @access global * @param string $str * @param boolean $unique 是否去除重複值 * @param boolean $merge 是否合并附加值 * @return array */ function seg_word($str,$unique=false,$merge=true) { $str = trim(strip_tags($str)); $strlen = strlen($str); if($strlen == 0) return array(); $spc = ' '; //按需增加需要過濾的字元 $search = array(',', '/', '\\', '.', ';', ':', '\'', '!', '~','"', '`', '^', '(', ')', '?', '-', "\t", "\n", '\'', '<', '>', "\r", "\r\n", '\$', '&', '%', '#', '@', '+', '=', '{', '}', '[', ']', ')', '(', '.', '。', ',', '!', ';', '“', '”', '‘', ''', '[', ']', '、', '—', ' ', '《', '》', '-', '…', '【', '】',':'); $numpairs = array('1'=>'一','2'=>'二','3'=>'三','4'=>'四','5'=>'五','6'=>'六','7'=>'七','8'=>'八','9'=>'九','0'=>'零'); $str = alab_num($str); $str = str_replace($search,' ',$str); $ord = $i = $k = 0; $prechar = 0;// 0-空白 1-英文和符號 2-中文 $result = array(); $annex = array(); while($ord = ord($str[$i])) { //1位元組字元 if ($ord <= 0xC0 ) { //去除Null 字元串 if($ord < 33) { $prechar=0; $i++; $k++; continue; } //附加中文大寫數字轉換 if(isset($numpairs[$str[$i]])) { $annex[]=$numpairs[$str[$i]]; } //如果前面是中文 if( $prechar == 2 ){ $result[++$k] = $str[$i]; } else { $result[$k] .= $str[$i]; } $prechar = 1; $i++; } else //2-3位元組字元(中文) { if($ord < 0xE0) $step = 2; else $step = 3; $c = substr($str,$i,$step); if(false !== $key = array_search($c,$numpairs)){ $annex[] = $key; } if ($prechar != 0) { $result[++$k] = $c; } else { $result[$k] .= $c; } $prechar = 2; $i+=$step; } } $result = $merge ? array_merge($result,$annex) : $result ; return $unique ? array_unique($result) : $result ; }

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.