標籤:中文分詞 漢語分詞 語義分析 文本分析 自然語言處理
自然語言通常是指一種自然地隨文化演化的語言。英語、漢語、日語為自然語言的例子,而世界語則為人造語言,即是一種為某些特定目的而創造的語言。
自然語言具備兩個屬性:語言屬性與自然屬性。“語言”屬性工作表現為公認的某些約定俗成的內在規律性;“自然”屬性是說並不存在某個人為製造的、嚴格的文法規則體系來約定人們的語言表達方式,這是和程式設計語言大相徑庭的。自然語言需要遵循一定的內在規律,但更大程度上是“存在即合理”。
一個自然語言處理系統必須考慮許多語言自身與結構方面的知識——如什麼是詞、詞如何組成句子、詞的意義是什麼、詞的意義對句子意義有什麼貢獻等,但這些卻還是遠遠不夠的。比如一個系統如果要回答提問或者直接參与對話,它不僅需要知道很多語言結構的知識,而且還要知道人類世界的一般性知識並具備人類的推理能力。因此許多語言學家通常把對語言的分析和理解分成如下幾個主要層次:詞法分析、句法分析、語義分析、篇章分析。
從自然語言的視角衡量邏輯語言,其不足有:初始詞項的種類不夠多樣;量詞的種類比較貧乏;存在量詞的轄域在公式系列中不能動態延伸;由於語境的缺失而使語言傳達資訊的效率不高。而靈玖軟體 NLPIR文本搜尋與挖掘系統充分解決了這些問題。NLPIR是一套專門針對原始文本集進行處理和加工的軟體,提供了中介軟體處理效果的可視化展示,也可以作為小規模資料的處理加工工具。使用者可以使用該軟體對自己的資料進行處理。
NLPIR文本搜尋與挖掘系統的分詞原理主要的運用了以下幾種演算法:
1、基於詞典和規則的漢字分詞
切分時,用待切分的字串去匹配詞典中的詞條,如果匹配成功,則將其切分成一個詞。這類方法包括各種形態的最大匹配分詞方法、全切分分詞演算法等。
1) 最大匹配分詞方法
最大匹配分詞方法又分正向最大匹配、反向最大匹配和雙向最大匹配方法。正向最大匹配從左至右每次取最長詞;反向最大匹配每次是從右至左取最長詞;雙向匹配則是進行正向、反向匹配,然後對於兩種匹配結果不同的地方再利用一定的規則進行消歧。
最大匹配法可能無法處理部分覆蓋歧義、交叉歧義。但這種方法實現簡單且切分速度快。
2) 全切分分詞演算法
利用詞典匹配,獲得一個句子所有可能的切分結果。由於全切分的結果數隨著句子長度的增加呈指數增長,因此這種方法的時空開銷大;對於比較長且包含較多歧義的句子,往往要經過很長時間才能遍曆完所有的切分路徑。
3) 基於理解的中文分詞演算法
分詞中歧義消除的過程是一個理解的過程,這不僅需要詞法資訊,還需要句法和語義資訊。所以目前也有些研究者嘗試類比人的理解過程,在分詞過程中加入句法和語義分析來處理歧義問題。由於漢語語言知識的複雜性,難以將各種語言資訊組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在實驗階段。
2 基於大規模語料庫的統計學習的分詞方法
這類方法主要是利用從大規模語料庫中通過統計得到的各種機率資訊,來對中文字串進行切分。這種方法往往不需人工維護規則,也不需複雜的語言學知識,且擴充性較好,是現今分詞演算法中較常用的做法。
3 規則和統計方法相結合的漢字分詞方法
現在多數分詞演算法都採用規則和統計相結合的方法,這樣做既可降低統計對語料庫的依賴性,充分利用已有的詞法資訊,同時又能彌補規則方法的不足。常用的結合方法是利用詞典進行初切分,然後用其它的機率統計方法和簡單規則消歧來進行未登入詞識別。
大資料文本分析:靈玖自然語言中文語義分詞系統