仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
最近在學習SEO的過程中發現了一個新名詞,叫分詞技術,下面和各位站長簡單探討下所謂的分詞技術。
中文分詞是將一句話或一個短語按照日常閱讀習慣進行機械分解。 英文分詞是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。 例如,我喜歡搜尋引擎,分詞的結果是:我|喜歡|搜尋引擎。 把中文的漢字序列切分成有意義的詞,就是中文分詞,有些人也稱為切詞。
中文每個字都可以直接作為一個詞來使用,沒有斷詞,正因為此它才多變。 雖然多變,但是在表達上靈活。 但是對於搜尋引擎來說這是非常難以解決的問題。 在中文分詞當中,有三種難分類型。
1、交集型歧義
假設「ABC」是一個由A、B、C三個漢字構成的字串,如果 「AB」、「BC」都是詞,那麼電腦在切分時可以把「ABC」切分為「AB/C」,也可以切分為「A/BC」。 這種切分歧義稱為交集型歧義。
2、組合型歧義
如果「AB」是詞、「ABC」也是詞,那麼產生的切分歧義稱為組合型歧義。
3、混和型歧義
混和型歧義是包含交集型歧義和組合型歧義的切分歧義。
目前解決這些問題主要通過字典和統計學的方法。
首先我們先說說字典分詞法。 字典一般採用首碼樹和尾碼樹的資料存儲結構。 什麼是首碼樹呢?其實就是我們把一個句子從左向右掃描一遍,遇到字典裡有的詞就標識出來,遇到複合詞就找最長的詞匹配,遇到不認識的字串就分割成單字詞,於是簡單的分詞就完成了。 尾碼樹就是從右向左掃描一遍。
統計學的方法,雖然字典分詞已經解決了很多分詞上出現的問題。 但是面對很多新出的詞彙,分詞也面臨著挑戰。 統計學的分詞方式是基於概念和資訊學方面的知識進行處理。 基本原理就是尋找那些經常一同出現的字,總是相互的字很有可能構成一個詞。
分詞技術需要分析大量內容,即使到現在中文分詞還在不斷發展,還沒有一個分詞方法能徹底解決一切問題。