百度中文分詞技術的一點小猜測

來源:互聯網
上載者:User

  大家都知道,百度的中文分詞技術比GOOGLE做的好,以下引用網路上找到的一張圖片說明:

 

  從上圖可以推斷出,百度遇到一個關鍵字,應該是先不進行分詞,而是先檢索百度百科的詞條和百度指數有指數的中文詞進行匹配,無法精確匹配的話,再進行分詞,前兩年在百度搜尋索引鍵“利川新聞網”時,被分為利川/新聞/網,自從這個關鍵字有指數以後,百度會把它當做一個完整的關鍵詞。

  當然,百度的分詞技術肯定比我個人推斷出來的要複雜的多,作為百度旗下的產品,百度不會放棄自己的資源,肯定會參考百度百科的詞條作為分詞演算法的一部分,所以同樣做搜尋的騰訊搜搜也開發了自己的百科,但是我們以後在做SEO的時候,遇到比較偏的長尾關鍵詞不能被正確分詞的情況下,可以在百度百科建立一個詞條,然後在參考資料裡加上自己的連結,這樣還可以解決百度相關產品權重比我們的網站高的問題。

  本文由利川線上原創,A5平台首發,轉載請註明出處,本文來源網址:http://www.445400.com/blog/610.html



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。