王克江:詳細案例解說百度中文分詞原理

來源:互聯網
上載者:User

  搜尋引擎演算法的改變迎來的中文分詞原理的變化,下面idsem團隊成員王克江以中文分詞原理來解說百度中文分詞原理的分詞規則,分享如下:

  一、中文分詞原理的解說

  1、基於理解的分詞方法

  基於理解的分詞方法就是機器類比人來理解詞語,在語言知識及其詞庫的配合下,機器執行語句控制,詞意控制,以及分詞控制來類比人來讀取網頁資訊。可以理解成機器類比人分詞。

  2、基於字串匹配的分詞方法

  基於字串匹配分詞是與詞庫進行對比按照不同的掃描方式進行分詞,掃描方式分為四種:

  1)正向最大匹配法(由左到右的方向)

  2)逆向最大匹配法(由右到左的方向)

  3)最少切分(使每一句中切出的詞數最小)

  4)雙向最大匹配法(進行由左到右、由右到左兩次掃描)

  為了提高分詞精確度,又出現了標誌和特徵掃描。標誌分詞以標誌作為為斷點,可將原字串分為較小的串再來進機械分詞;特徵分詞將分詞和詞類標註結合起來,利用豐富的詞類資訊對分詞決策提供協助,並且在標註過程中又反過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。

  3、基於統計的分詞方法

  基於統計的分詞方法目前有兩種方式:互現資訊統計分詞、機械學習統計分詞 互現資訊統計分詞:在去除雜訊的前提下統計詞語出現的頻率以及詞語相鄰的位置,根據相鄰原則以及詞語出現的頻率形式詞語。

  機械學習統計分詞:在有大量已經分詞的文本前提下,利用統計機器學習模型學習詞語切分的規律,實現對未知文本的切分,也可以成為訓練統計分詞。

  4、歧義詞語的識別

  歧義分詞包括交集型歧義和組合型歧義在此就不做具體介紹您可以參考”中文分詞”百科

  5、新詞識別

  新詞識別主要指專業術語或者是具名實體比如”人名、地名、機構名、商標”等在百度詞庫用定位為專有詞庫。

  在為大家解說玩中文分詞以後,那麼百度是如何進行中文分詞的呢,下面用具體例子詳細介紹

  二、圖例詳細解說百度如何進行中文分詞

  

百度中文分詞執行個體示範圖

 

  1、如圖所示”林夕閣軟文”匹配成詞,體現了百度”基於理解的分詞方法”,機器類比人理解出現了誤區。

  2、在admin5的URL描述中我們可以發現”林夕閣”"軟文”單獨成詞,那麼在標題中”林夕閣軟文”成詞不光是進行了”理解分詞”還參與了統計分詞”互現資訊”。

  3、在標題中先出現了”王克江”又出現了”林夕閣軟文”體現了正向最大匹配的基於字串的分詞方法。

  4、4個返回結果相對比我們發現了”王克江”作為一個人名專有成詞。

  5、在”林夕閣軟文”這個分詞中又體現了歧義分詞,林夕閣本身是做互連網名人專訪的,但是從這個分詞我們可以看出,百度還未解決歧義分詞。

  那麼綜合上述5條,我們可以總結出,百度中文分詞是綜合了中文分詞的所有形式,主要掃描方式是正向最大匹配。但是當百度改變演算法以後,逆向最大匹配的掃描的方式也參與了百度的中文分詞。

  舉例如下

  

 

  百度中文分詞新規律示範圖

  如圖觀察”小剛的爸爸”匹配成詞,這個足以說明百度目前的分詞方式已經綜合了正向最大匹配和逆向最大匹配的掃描方式。

  總結:瞭解中文分詞,分析百度中文分詞方式對網路營銷以及軟文寫作有著重要的作用,當然,百度的演算法也在不斷改變,分詞也在改進,只要我們抓住核心,以使用者體驗為基準,網路營銷就不會在糾結。

  著作權:本文由idsem團隊首席策劃王克江手攥,著作權歸屬idsem團隊王克江所有,望您尊重!!!

  文章來源:http://www.idaus.com/blog-269-77.html



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。