中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位Google的科學家說:“如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。”
中文分詞對於影響搜尋引擎結果排序有著至關重要的作用。我們在實際的搜尋引擎最佳化中,為了避免很多主關鍵詞的大量競爭,也會使用到中文分詞技術來做SEO最佳化。
目前,主流的分詞辦法有兩種,一種是基於統計模型的文文書處理,另外一種是基於字串匹配的逆向最大匹配法。
基於統計模型的文文書處理
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或機率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現資訊。定義兩個字的互現資訊,計算兩個漢字X、Y的相鄰共現機率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
基於統計模型的文文書處理,因為技術性比較高,而且只是使用在搜尋引擎分詞演算法的過程中,如果學會,對於SEO的協助會更大,各位可以加入我的SEO培訓班進行深入討論。這裡更多的說一下基於字串匹配的逆向最大匹配法。
一般來說,我們在SEO中使用最多的分詞辦法就是基於字串匹配的逆向最大匹配法。這個辦法其實很簡單。我們以一個簡單的例子來說明。
“瑞星一直以品質和服務開拓安全市場”。
如果這個句子我們以“查字典”的辦法正向切分的話,就%