虛子雨:百度分詞技術研究與猜測

來源:互聯網
上載者:User

  百度搜尋引擎在中文領域市場佔有率第一的地位,嚴格來說是他有了一套非常好的分詞技術。當然高深的分詞技術我們是無法探知的。但我們可以從一些表面的一些“管”來窺其裡面的“豹”。今天杭州SEO就為大家談一談關於百度分詞的一點點基本的猜測。

  首先我們要瞭解百度分詞的條件,並不是所有的詞都會有分詞產生,例如我們搜尋“大學生”,返回的結果,我們會看到精準匹配,那麼百度就對這個詞沒有進行了分詞處理,看下圖:

  

 

  而我們搜尋“電影下載”,百度就會將這些詞拆分為“電影”、“下載”和“電影下載”,如下圖:

  

 

  於是有朋友猜測會不會百度以三個中文字為限,開始實施分詞呢?大家可以多次測試一下,這種說法是相當有市場的,但是後面我又搜尋關鍵詞的時候發現一個問題,如果一個詞已經被百度詞庫收為一個單獨的詞,那麼不管他多麼長,百度也會先推薦精準匹配網頁,然後推薦分詞匹配網頁。

  例如大家搜尋“不管你們信不信”,一般來說這樣的句子肯定是要被分詞處理的,但是因為去年動車事件,這個句子已經成為大家常用的詞語,百度也已經對這個詞比較認可了,將他收入詞庫中,那麼它就可以實現精準匹配。如下圖,網頁標題中都是精準匹配,未見分詞匹配:

  

 

  結論猜測:使用者搜尋某個關鍵詞,百度會根據自己詞庫先進行精準匹配,如果這個詞是很常用的詞,在自己詞庫中已經建立詞條的詞,那麼百度就會調用相關的網頁結果,如果詞庫中不存在就進行分詞處理,得出的搜尋結果也會產生一些分詞處理情況,至於結果排名影響因素比較多,比如網站的權重會影響到搜尋的結果排名,具體的需要深入分析,這裡就不班門弄斧了。

  本文由杭州SEO(http://www.soxunseo.com)網編髮表,歡迎大家轉載,轉載時請保留此連結,謝謝合作!



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。