蕭涵:略談百度搜尋引擎的中文分詞技術

來源:互聯網
上載者:User

  瞭解搜尋引擎分詞技術對於我們的SEO工作有著重大的意義,不管是我們的關鍵詞布局還是連結架構,都跟分詞有莫大的關聯。這裡蕭涵給大家談下一百度的中文分詞(當然也不局限於百度,其他搜尋引擎也是差不多的)。本文分兩個部分,首先是摘取已有的關於分詞的解釋,另外再加入我自己對分詞的擴充思路。

  什麼是中文分詞?

  我們都知道,英文句子都是由一個一個單詞按空格分開組成,所以在分詞方面就方便多了,但我們中文是一個一個漢字串連而成,所以相對來說是比較複雜的。中文分詞指的是將一個漢語句子切分成一個一個單獨的詞,按照一定的規則重新組合成詞序列的過程。這個也稱做“中文切詞”。

  分詞對於搜尋引擎有著很大的作用,是文本挖掘的基礎,可以協助程式自動識別語句的含義,以達到搜尋結果的高度匹配,分詞的品質直接影響了搜尋結果的精確度。目前搜尋引擎分詞的方法主要通過字典匹配和統計學兩種方法。

  一、基於字典匹配的分詞方法

  這種方法首先得有一個超大的字典,也就是分詞索引庫,然後按照一定的規則將待分詞的字串與分詞庫中的詞進行匹配,若找到某個詞語,則匹配成功,這種匹配有分以下四種方式:

  1、正向最大匹配法(由左到右的方向);

  2、逆向最大匹配法(由右到左的方向);

  3、最少切分(使每一句中切出的詞數最小);

  4、雙向最大匹配法(進行由左到右、由右到左兩次掃描)

  通常,搜尋引擎會採用多種方式組合使用。但這種方式也同樣給搜尋引擎帶來了難道,比如對於歧義的處理(關鍵是我們漢語的博大精深啊),為了提高匹配的準確率,搜尋引擎還會類比人對句子的理解,達到識別詞語的效果。基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它類比了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊,當然我們的搜尋引擎也在不斷進步。

  二、基於統計的分詞方法

  雖然分詞字典解決了很多問題,但還是遠遠不夠的,搜尋引擎還要具備不斷的發現新的詞語的能力,通過計算詞語相鄰出現的機率來確定是否是一個單獨的詞語。所以,掌握的上下文越多,對句子的理解就越準確,分詞也越精確。舉個例子說,“搜尋引擎最佳化”,在字典中匹配出來可能是:搜尋/引擎/最佳化、搜/索引/擎/最佳化,但經過後期的機率計算,發現“搜尋引擎最佳化”在上下文相鄰出現的次數非常多,那麼基於統計就會將這個詞語也加入進分詞索引庫。關於這點我在《關於電商與圈的分詞測試》就是同樣的一個例子。

  中文分詞的應用

  分詞準確性對搜尋引擎來說十分重要,但如果分詞速度太慢,即使準確性再高,對於搜尋引擎來說也是停用,因為搜尋引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜尋引擎內容更新的速度。因此對於搜尋引擎來說,分詞的準確性和速度,二者都需要達到很高的要求。

  對於我們SEO從業者來說,分詞的原理和方法是必須要掌握的,這樣才能夠將我們的網站設計得讓搜尋引擎容易確定它的主題相關性。比如我們的網站是關於SEO培訓的,當使用者在搜尋這個詞語的時候,搜尋引擎首先會對其進行分詞,比如分為“SEO”和“培訓”,然後在索引庫中進行分別匹配。這裡還涉及到一點,也是我自己的總結,每個詞語分詞後有一個主詞和副詞,通常是優先匹配主詞,然後再匹配副詞,比如這裡顯然SEO是主詞,所以優先去匹配這個詞語,然後是培訓這個副詞。那麼, 我們的網站應該如何去布局和架構,留給大家去思考。

  作者:蕭涵 首發蕭涵SEO部落格,原文地址:http://www.xiaohan86.com/2011061149.html 轉載請註明出處。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。