標籤:大資料中文分詞 漢語分詞 語義分析
語義分析,指的是將給定的自然語言(包括篇章和句子)轉化為反映其意義的某種形式化表示,也就是將人類能夠理解的自然語言轉化為電腦能夠理解的形式語言,做到人與機器的互相溝通。它是面向整個句子的,而不僅是句子中主要謂詞與其論元之間的語義關係,還含有非主要謂詞包含的語義資訊,如數量(quantity)、屬性(attribute)和頻率(frequency)等。
自然語言處理語義分析是自然語言處理技術走向深層應用的瓶頸.當前在概念、關係層次上的語義分析方法主要有兩種:基於統計的特徵向量抽取方法和基於語義詞典(WordNet、HowNet等)的語義相似性計算方法.對於具體應用這兩種方法都具有較大不足,前者由於統計模型的關係只適用於段落、篇章或多文檔等粗粒度的語義分析,而不適合在句子詞彙一級的應用;後者能方便處理實體概念之間的各種關係。
NLPIR文本搜尋與挖掘系統針對互連網內容處理的需要,融合了自然語言理解、網路搜尋和文本挖掘的技術,提供了用於技術二次開發的基礎工具集。提供了中介軟體處理效果的可視化展示,也可以作為小規模資料的處理加工工具。
一、中文分詞
1、基於字串匹配的分詞方法。此方法按照不同的掃描方式,逐個尋找詞庫進行分詞。
2、全切分方法。它首先切分出與詞庫匹配的所有可能的詞,再運用統計語言模型決定最優的切分結果。
3、由字構詞的分詞方法。可以理解為字的分類問題,也就是自然語言處理中的sequence labeling問題。
4、於詞典和規則的漢字分詞
切分時,用待切分的字串去匹配詞典中的詞條,如果匹配成功,則將其切分成一個詞。
5、基於大規模語料庫的統計學習的分詞方法
這類方法主要是利用從大規模語料庫中通過統計得到的各種機率資訊,來對中文字串進行切分。這種方法往往不需人工維護規則,也不需複雜的語言學知識,且擴充性較好,是現今分詞演算法中較常用的做法。
6、規則和統計方法相結合的漢字分詞方法
現在多數分詞演算法都採用規則和統計相結合的方法,這樣做既可降低統計對語料庫的依賴性,充分利用已有的詞法資訊,同時又能彌補規則方法的不足。
二、分詞標註
一個文本串除了分詞,還需要做詞性標註,具名實體識別,新詞發現等。通常有兩種方案,一種是先分詞,再做詞性標註;另一種是把這些任務用一個模型來完成。
三、語言模型
語言模型是用來計算一個句子產生機率的機率模型,即P(w_1,w_2,w_3…w_m),m表示詞的總個數。
N-Gram語言模型簡單有效,但是它只考慮了詞的位置關係,沒有考慮詞之間的相似性,詞文法和詞語義,並且還存在資料稀疏的問題,所以後來,又逐漸提出更多的語言模型
神經網路語言模型,它是基於N-Gram的,首先將每個單詞w_{m-n+1},w_{m-n+2} … w_{m-1}映射到詞向量空間,再把各個單詞的詞向量組合成一個更大的向量作為神經網路輸入,輸出是P(w_m)。
大資料語義分析 NLPIR是怎麼實現的