淺談百度中文分詞是如何進行的

來源:互聯網
上載者:User

  相信大家對於搜尋引擎收錄的分詞技術一直都很好奇,掌握瞭解了搜尋引擎分詞技術對於我們這些站長的工作有很大的協助:在網站的連結架構及關鍵詞的布局都與分詞有很大的關係。平時跟百度接觸的比較多,所以就以百度中文分詞為例介紹下搜尋引擎分詞的方法。

  中文分詞是什麼

  在瞭解百度的中文分詞之前大家首先要瞭解什麼是中文分詞?我們中文與英文不同,是由一個個漢字串連成的,因此分起來相對比較複雜。百度的中文分詞是將一個漢語句子切分成一個個的單獨的詞,然後按照一定的規則重新組合成一個序列的過程,簡稱“中文切詞”。分詞對搜尋引擎的協助很大,可以協助搜尋引擎程式自動識別語句的含義,從而使搜尋結果的匹配度達到最高,因此分詞的品質也就直接影響了搜尋結果的精確度。當前百度搜尋引擎分詞主要採用字典匹配和統計學這兩種方法。

  字典匹配分詞

  這種方法的就出事有一個詞庫量超大的詞典,即分詞索引庫,在按照一定的規則將待分的詞的字串與詞庫中的詞進行匹配,找到某個詞語就表示匹配成功,這主要通過以下幾種方式:最少切分(使每一句中切出的詞數最小);正向最大匹配法(由左到右的方向);雙向最大匹配法(進行由左到右、由右到左兩次掃描);逆向最大匹配法(由右到左的方向)。

  一般情況下,搜尋引擎會使用多種方式結合使用,這就為搜尋引擎帶來很大的困難,如歧義的處理,為了提高關鍵詞匹配的精確率,搜尋引擎會類比人類對句子的理解,從而達到識別詞語的效果。也就是在粉刺的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。這主要包括以下幾個部分:總控部分、分詞子系統、句法語義子系統。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它類比了人對句子的理解過程。

  統計學分詞

  雖然字典索引庫解決了很多難題,但是著寫還是遠遠不夠的,搜尋引擎還需要具有不斷髮現新詞的能力,在通過計算詞語相鄰的機率在確定是不是一個單獨的詞語,因此瞭解的上下文越多,對句子的理解也就越準確,當然分詞也就越精確。舉個例子來講就是“搜尋引擎最佳化的過程是什麼”在上下文中出現的次數較多,那麼統計學分詞就會將這個詞假如分詞索引庫。

  對於seo的工作者,必須要掌握搜尋引擎的粉刺原理和方法,這樣才能是網站更容易確定主題的相關性。就“seo”和“培訓”,我發現每個詞語分詞後有一個主詞和副詞,通常是優先匹配主詞,然後再匹配副詞,比如這裡顯然SEO是主詞,所以優先去匹配這個詞語,然後是培訓這個副詞。看完本文後,我們的網站該怎樣去布局和架構,可以好好的考慮一下了。

  本文由鄭州腦癱醫院首家原創,A5首發,希望對各位站長有所協助,記得轉載時留下本文供稿站長資訊www.naotan0371.com,歡迎轉摘。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。