International - English

Cart Console

Topic Center

Contact Sales

首頁 > 建站 > 網站運營

搜尋引擎知識中文分詞技術

最後更新：2014-12-19 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷淘寶客雲主機技術大廳

中文分詞是將一句話或一個短語按照日常閱讀習慣進行機械分解。英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，我很喜歡搜尋引擎，分詞的結果是：我|很喜歡|搜尋引擎。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。

中文每個字都可以直接作為一個詞來使用，沒有斷詞，正因為此它才多變。雖然多變，但是在表達上靈活。但是對於搜尋引擎來說這是非常難以解決的問題。在中文分詞當中，有三種難分類型。

1、交集型歧義

假設「ABC」是一個由A、B、C三個漢字構成的字串，如果「AB」、「BC」都是詞，那麼電腦在切分時可以把「ABC」切分為「AB/C」，也可以切分為「A/BC」。這種切分歧義稱為交集型歧義。

2、組合型歧義

如果「AB」是詞、「ABC」也是詞，那麼產生的切分歧義稱為組合型歧義。

3、混和型歧義

混和型歧義是包含交集型歧義和組合型歧義的切分歧義。

目前解決這些問題主要通過字典和統計學的方法。

首先我們先說說字典分詞法。字典一般採用首碼樹和尾碼樹的資料存儲結構。什麼是首碼樹呢?其實就是我們把一個句子從左向右掃描一遍，遇到字典裡有的詞就標識出來，遇到複合詞就找最長的詞匹配，遇到不認識的字串就分割成單字詞，於是簡單的分詞就完成了。尾碼樹就是從右向左掃描一遍。

統計學的方法，雖然字典分詞已經解決了很多分詞上出現的問題。但是面對很多新出的詞彙，分詞也面臨著挑戰。統計學的分詞方式是基於概念和資訊學方面的知識進行處理。基本原理就是尋找那些經常一同出現的字，總是相互的字很有可能構成一個詞。為此需要分析大量內容。即使到現在中文分詞還在不斷發展，還沒有一個分詞方法能徹底解決一切問題。

對中文分詞有興趣的讀者，可以閱讀以下文獻：

1. 梁南元

書面漢語自動分詞系統

HTTP://www.touchwrite.com/demo/LiangNanyuan-JCIP-1987.pdf

2. 郭進

統計語言模型和漢語音字轉換的一些新結果

HTTP://www.touchwrite.com/demo/GuoJin-JCIP-1993.pdf

3. 郭進

Critical Tokenization and its Properties

HTTP://acl.ldc.upenn.edu/J/J97/J97-4004.pdf

4. 孫茂松

Chinese word segmentation without using lexicon and hand-crafted training data

HTTP://portal.acm.org/citation.cfm?coll=GUIDE&dl=GUIDE&id=980775

本文首發齊甯網路行銷策劃 www.qi-ning.com轉載請注明作者資訊。謝謝!

齊甯 MSN： i@qining.org

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

以婚紗攝影網站為例簡析區域性網站的口碑與品牌建設 08-18

如何利用好下面四種方法推廣自己的網站？ 08-18

如何從對比中找到突破來實現網站推廣效果？ 08-18

地方網站內容獲取是網站運營的第一大難關 08-18

關於網站快照新舊的原因分析和解決方法 08-18

網站運營:思路是決定成敗的關鍵 05-05

聯繫我們

該頁面正文內容均來源於網絡整理，並不代表阿里雲官方的觀點，該頁面所提到的產品和服務也與阿里云無關，如果該頁面內容對您造成了困擾，歡迎寫郵件給我們，收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容，歡迎發送郵件至： info-contact@alibabacloud.com 進行舉報並提供相關證據，工作人員會在 5 個工作天內聯絡您，一經查實，本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

搜尋引擎知識 中文分詞技術

聯繫我們

熱門文章

推薦話題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

搜尋引擎知識中文分詞技術