搜尋引擎中文分詞技術

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

由於很多朋友要求寫一篇搜尋引擎分詞技術的文章,特別是關於百度分詞的。 我今天就發發給大家

Moon 10月9號在SEOWHY週四答疑群給講解的分詞技術今天給大家帖出來供大家學習一下。

分詞技術 : 什麼是分詞, 如何分詞搜尋引擎會承認,這次第一位朋友提的問題,想必大家也聽說過,很好奇,什麼是分詞技術,什麼又是百度分詞呢?分詞大家容易理解。 就是一段詞用字元分開,比如標點符號,空格等。

那什麼叫分詞技術呢?分詞技術就是SE針對使用者提交查詢的關鍵串進行的查詢處理後根據使用者的關鍵字串用各種匹配方法進行的一種技術。 大家好好理解。 那麼我們要理解分詞技術先要理解一個概念。 那就是查詢處理,當使用者向搜尋引擎提交查詢後,搜索隱藏接收到使用者的資訊要做一系列的處理。 首先是到資料庫裡面索引相關的資訊,

這就是查詢處理,那麼查詢處理又是如何工作的呢?很簡單,把使用者提交的字串沒有超過3個的中文字,就會直接到資料庫索引詞彙。 超過4個中文字的,首先用分隔符號比如空格,標點符號,將查詢串分割成若干子查詢串。 舉個例子。 「什麼是百度分詞技術」 我們就會把這個詞分割成「 什麼是,百度,分詞技術。 」這種分詞方法叫做反向匹配法。 2.然後再看使用者提供的這個詞有沒有重複詞彙。

如果有的話,會丟棄掉,預設為一個詞彙。 接下來檢查使用者提交的字串,有沒有字母和數位。 如果有的話,就把字母和數位認為一個詞。 好了,這就是SE的查詢處理。

講了查詢處理後,大家對分詞技術,尤其是中文分詞技術有了一個基本的瞭解。

其實我講的都是搜尋引擎的原理。 好了,我接下來講分詞的原理。 我們用百度來舉例

百度是如何來分詞的呢?分詞技術現今非常成熟了。 他分為3種技術。

1.字串匹配的分詞方法

2.詞義分詞法。

3.統計分此法。

先說第一種。

也是常用的分詞法,百度就是用此種分詞。 字串匹配的分詞方法,他又分為3中分詞方法。

1.正向最大匹配法

什麼意思呢?就是把一個詞從左至右來分詞。

舉個例子。

「不知道你在說什麼」

這句話採用正向最大匹配法是如何分的呢?「 不知道,你,在,說什麼」與正向最大匹配法相對應的是反向最大匹配發。 這是第二種分詞方法。

2.反向最大匹配法 來分上面我舉的例子是如何分的呢 "不知道你在說什麼"。 反向最大匹配法來分上面這段是如何分的。 「不,知道,你在,說,什麼」,這個就分的比較多了,反向最大匹配法就是從右至左。

3.就是最短路徑分詞法。

這個什麼理解呢 ,就是說 我一段話裡面要求切出的詞數是最少的。 還是上面哪句話

「不知道你在說什麼」最短路徑分詞法就是指,我把上面哪句話分成的詞要是最少的。 不知道,你在,說什麼,這就是最短路徑分詞法,分出來就只有3個詞了 。 好了,當然還有上面三種可以相互結合組成一些分詞方法。 比如正向最大匹配法和反向最大匹配法組合起來就可以叫做雙向最大匹配法。 好了,第一種說完了,

2.詞義分詞法。

這種其實就是一種機器語音判斷的分詞

方法。 很簡單,進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象來分詞,這種分詞方法,現在還不成熟。 處在測試階段。

第三種,統計的分詞方法。

這個很簡單,就是根據片語的統計,就會發現兩個連續的字出現的頻率最多,那麼這個詞就很重要。 就可以作為使用者提供字串中的分隔符號。 這樣來分詞。 比如,「我的,你的,許多的,這裡,這一,那裡」。 等等,這些詞出現的比較多,就從這些詞裡面分開來。 好了,分詞技術講完了。

那麼我們剛剛學了分詞技術,又如何來運用他們為我們的網站獲得流量呢

1.我們可以利用分詞技術來增加我們網站長尾詞。 這樣就可以獲取流量排名。

不但這些分出來的長尾詞能夠獲取一定的排名,也能夠推動網站的目標關鍵字獲取很好的排名。 這個原理就是內鏈原理,這裡不再講了。 講了這麼多,我們舉個例子。

例如:三亞酒店預定,如何來分呢?

正向最大匹配,反向最大匹配,雙向最大匹配,最短連結匹配。

1.正向最大匹配

「三亞,酒店預定」

2.反向最大匹配

「三亞酒店,預定」

3.雙向最大匹配

「三亞,酒店,預定」

4.最短路徑最大匹配。

「三亞酒店預定」好了,我們分了詞為

「三亞,「酒店預定,預定,三亞酒店,三亞,酒店 ,三亞酒店預定。 」

這些詞每個都可以做一個主題頁為目標關鍵字

這些分出來的詞,把他們都作為你網站的主題頁,導入連結權重上來了,競爭力就大了,因為這些頁面把他內鏈起來。 用錨連結,指向主頁的目標關鍵字。 呵呵,這就是分詞的好處。 他能夠提升目標關鍵字的排名的競爭力也同時給網站帶來一定流量。 一旦導入連結權重上來了,競爭力就大了,因為這些頁面把他內鏈起來。

用錨連結,指向主頁的目標關鍵字。 呵呵,這就是分詞的好處。 他能夠提升目標關鍵字的排名的競爭力也同時給網站帶來一定流量。 分詞還有一種好處。 那就是提升內頁的排名。 好的,這個我就不詳細講了。 因為我在SEOWHY已經寫了一篇文章。 大家可以去看一下。 就是關於百度,捕獲描述的文章。 如果你的內頁不做描述,那麼百度就會給你定義一個描述或者從你的頁面捕獲一個描述。 在捕獲描述的時候,如果你的知道他會捕獲哪一段,那麼你說,你的排名會不會上升。 你就刻意寫哪一段。

我寫的那篇文章位址如下。 大家可以去看一下。

HTTP://www.seowhy.com/bbs/thread-4451-1-1.html

最近有朋友整理出來並且轉載了,轉載沒有關系,請注明作者和出處(SEOWHY)

 

編輯推薦: 學習網站優化推廣的專業網站——選學網 www.xuanxue.com  ,內容非常不錯,學習網路行銷,網站推廣的朋友一定不要錯過。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.