在搜尋引擎技術中,中文分詞對於影響搜尋引擎結果排序有著至關重要的作用。我們在實際的搜尋引擎最佳化中,為了避免很多主關鍵詞的大量競爭,也會使用到中文分詞技術來做SEO最佳化。
舉個簡單的例子,假如我們需要最佳化一個內容是“軸承”的網頁,那麼想要這個關鍵詞在搜尋引擎中排名更好,那就是很難的一件事了。因為“軸承”這個關鍵詞熱度太高,所以想要通過SEO手段去將其最佳化到搜尋結果的首頁是一件非常難的事。在這個時候我們經常會使用長尾關鍵詞去最佳化這樣的高熱度關鍵詞,也就是說,我們經常會最佳化一些例如“北京軸承銷售商”、“北京進口軸承”等這樣的關鍵詞。而想要把這樣的關鍵詞做到搜尋結果的前列,對於中文分詞技術的把握和對於關鍵詞的布局,有很大的重要性。
中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位Google的科學家說:“如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。”
那麼中文分詞在搜尋引擎最佳化中到底具有怎樣的意義呢?分詞對SEO的影響是多方面的,最重要的就是對長尾流量的影響。例如說我們常常見到很多很想做的長尾關鍵詞,例如廣州進口軸承銷售,上海進口軸承銷售等等,但我們通過前文對於SEO的瞭解可以知道,一個頁面做關鍵詞不要超過三個,因為超過三個就會分散了每個關鍵詞的權重,反而一個都做不好。但如果我們想超過三個又不影響呢?那麼我們這時候就需要利用中文分詞來對關鍵詞進行組合了,例如:進口軸承銷售-上海-廣州。這樣分出來的結果可能沒有廣州進口軸承銷售或上海進口軸承銷售的關鍵詞來的直接,但用這樣分詞的辦法卻使到很多詞都獲得不錯的效果。多個詞排名在搜尋引擎結果頁的首位,總是要比一個關鍵詞排名在第一位的覆蓋面要廣。久而久之,因為 廣州+進口軸承銷售、上海+進口軸承銷售這些頁面讓搜尋引擎知道你的頁面和“進口軸承銷售”這個關鍵詞相關度很高,因此進口軸承銷售這個主關鍵詞的排名也會相對提高。
當然,我們上面舉得例子是還沒有完全對於關鍵詞進行完全的拆分。下面我們就對中文分詞做一個粗略的討論。
最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的,一種基於“查字典”的分詞辦法。例如這個句子:“著名導演張藝謀說國慶節晚上將安排十萬人到***聯歡。”
用 “查字典” 的分詞方法,我們要做的就是把整個句子讀一遍,然後把字典裡有的詞都單獨標示出來,當遇到複合詞的時候(例如北京大學),就找到最長的詞匹配。遇到不認識的字串就分割成單個文字。根據這樣的辦法,我們以上的文字可以切分為:
“著名 | 導演 | 張藝謀 | 說 | 國慶節 | 晚上 | 將 | 安排 | 十萬人 | 到 | *** | 聯歡”
這樣的分詞辦法雖然說可以應付很多的句子,但是由於細分的太多,在真正搜尋引擎使用的過程中,到底哪一個詞才是重點就無法表述,從而搜尋引擎搜尋出的結果也不能達到最大的相關度。於是在80年代,哈爾濱工業大學電腦博士生導師王曉龍博士提出了“最少詞數”的分詞理論,即為,一句話應該是分詞最少的字串,這樣會更多的讓搜尋引擎更明白這句話到底是什麼意思。但是這樣的辦法雖然更好,新的問題卻也顯現了出來。例如,我們在做“二義性”關鍵片語的時候,就不能說最長的分割就是最好的結果。舉個例子,“吉利大學城書店”這個關鍵詞正確的分詞應該是“吉利 | 大學城 | 書店”而不是詞典中的“吉利大學 | 城 | 書店 ”。
目前,主流的分詞辦法有兩種,一種是基於統計模型的文文書處理,另外一種是基於字串匹配的逆向最大匹配法。
基於統計模型的文文書處理
從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或機率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現資訊。定義兩個字的互現資訊,計算兩個漢字X、Y的相鄰共現機率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
基於統計模型的文文書處理,因為技術性比較高,而且只是使用在搜尋引擎分詞演算法的過程中,如果學會,對於SEO的協助會更大,各位可以加入我的SEO培訓班進行深入討論。這裡更多的說一下基於字串匹配的逆向最大匹配法。
一般來說,我們在SEO中使用最多的分詞辦法就是基於字串匹配的逆向最大匹配法。這個辦法其實很簡單。我們以一個簡單的例子來說明。
“瑞星一直以品質和服務開拓安全市場”。
如果這個句子我們以“查字典”的辦法正向切分的話,就會切分成下面的句子。
“瑞/星/一直/以/品質/和服/務/開拓/安全/市場”
我們可以看到,正向切分出現了一個重大的錯誤“和服”,而“和服”這個關鍵詞是日本的傳統服飾,和這句話的意思根本沒有任何關係,如果真的這樣去分詞的話,那麼在真正搜尋引擎索引的過程中,我們搜尋“和服”也會出現這樣的錯誤結果。