筆者之前做過分詞演算法的測試員,其實分詞技術並不是百度的強項,而是通過第三方的分詞技術應用於自己是網站搜尋上的,分詞主要是通過對實詞和虛詞的分割,找到對使用者來說有用的詞這些詞往往就被稱作關鍵詞,通過對分詞技術的瞭解,讓我們能夠有效提升網站關鍵詞的指定,同時也有助於提升網站的排名!
通常分詞演算法是針對百度而言的,Google因為對分詞技術不敏感,所以在中文搜尋市場上,百度一直是領導者,返回的結果往往對使用者更加的有用,所以我們做網站最佳化如果主要針對的是中文群體,那麼瞭解百度的分詞技術是非常必要的!下面我們就來具體的說明一下百度的分詞技術!
一般而言,百度的中文分詞是基於詞典和統計的兩種匹配方式,這兩種方法並不是單獨存在的,而是相互聯絡相互影響的!
一:基於詞典的匹配方法
這是一種根據使用者的搜尋字詞語按照詞典中的詞語進行拆分,如果能匹配成功怎會切分成一個一個的單詞,然後再根據方向上的不同,將這個單詞分成正向和逆向的兩種匹配方式,在正向的匹配中,又能夠按照詞語的長度不同又細分為最大匹配和最小匹配兩種方式!這種分詞技術單詞匹配的程度主要取決於詞典的完整性以及最新的更新情況!
對於這種分詞技術,我們在做SEO最佳化的時候,在首頁目標關鍵詞的選擇上就要結合這方面的原理,不能夠人造單詞,除非你能夠造出“神馬都是浮雲”能夠紅遍大江南北的詞,否則是很難獲得流量的,就算是你能夠將網站的排名提升到首頁上,那也不管用!而且對於陌生的詞彙,百度的搜尋結果可能都不會返回結果,你的網站因此而不會被收錄,所以在關鍵詞的選擇上一定要根據常用詞,根據詞典詞來進行選擇!
二:基於統計分詞的方法
這種方法的分詞技術,會需要搜尋引擎進行大量的計算,比如字與字相鄰的機率如何,某個短語在什麼地方出現的最多,使用者在搜尋某個詞語或者詞的時候會尋找什麼樣的內容,這都是搜尋引擎基於判斷的標準,這個方法能夠迅速對新詞作出反應,比如當一個新聞熱詞出現的時候,很多人都會用這個新詞來搜尋這個詞,比如小月月,比如藥佳鑫等等,如果搜尋引擎對這些詞無動於衷,那麼使用者肯定不會使用這樣的垃圾搜尋引擎的!
對於這種情況,我們就可以在做SEO最佳化時,要充分考慮到內容的相關性,我們簡單的那A5網站做個例子,當A5第一次出現的時候,搜尋引擎肯定不知道這是什麼樣的詞,當大家都用A5這個詞搜尋,而且都希望找到的是ADMIN5這個網站,自然搜尋引擎就會隨著自己的計算統計,然後就能夠把A5當成admin5了!這就是一個相關性的妙用,還有就是趕驢網對趕集網來說,也是利用分詞技術打得一個非常漂亮的仗!
有關於分詞技術我們就討論到這了,雖然比較的簡單,但是對於咱們SEO最佳化人員來說還是有一定的參考意義的!希望大家都能夠輕鬆完成對搜尋引擎的最佳化,讓自己的網站儘快的實現盈利!本文由左旋肉堿副作用原創A5首發,網址: http://www.jianfeizhan.net 轉載請註明。