標籤:擴充 挖掘 gpo 價值 img 網民 固定 詞頻統計 檢測
資訊的基本單位是句子,一個句子可以較表達完整連貫的易於理解的語義。句子中起主要作用的往往是關鍵詞、片語或短語,而句子中的其他成分只是起到進一步修飾串連的作用,它們只是對基本資料的細化和補充。一旦擷取了這些有意義的關鍵資訊,便能擷取句子的基本資料。因此,新特徵語言和有意義串發現對中文自然語言理解是很有意義的。發現頻繁使用的新詞和短語等有意義串不僅能改進分詞準確率,也有著其他廣泛的應用前景。其應用領域主要如下幾個方面:
首先,是對資訊檢索索引詞的分析。例如,“計算技術研究所”是一個完整的查詢詞,而“計算”或者“技術”幾乎不會有人去查詢。當使用者想搜尋福士汽車時,輸入“福士”得到的搜尋結果可能不太準確,包含很多類似“人民福士”、“勞苦福士”這樣非福士汽車的資訊,而作為有意義串的“上海福士”具有語義完整性,能夠排除歧義,一般能更準確地描述使用者的需求。所以,有意義串能夠應用到資訊檢索的查詢詞修正以及相關搜尋分析。
其次,在社會熱點挖掘與跟蹤方面有應用價值。一個有意義串就是一個線索,就是一個很有價值的社會現象,它們往往包含了網民對當前社會各種現象的立場和觀點。因此,對新特徵語言和有意義串的挖掘,對社會熱點挖掘與輿情監控的意義重大。
第三,能用於資訊分析與特徵提取。除字和詞外,常用的文本特徵項主要有短語、語義概念、有意義串等。有意義串的提取對於改善文本分類和聚類效能具有重要指導意義。
第四,對詞典擴充與語料庫建設意義重大。由於新詞出現的速度不斷加快,新詞出現的領域不斷增多,使用傳統的人工方法搜集新詞語,既耗時又耗力且時效性差。如果利用電腦的計算能力和自動檢測方法,可以快速輸出新詞候選供人工進行篩選,這將大大減輕了人的負擔。若能將新詞屬於有意義串的一部分被自動提取出來,必將促進語料庫的自動化建設。此外,有意義串挖掘進一步深化可以進行關鍵頻繁模式挖掘,對更高層次的文本自動內容抽取、話題檢測和機器翻譯等應用都有比較重要的意義。
新特徵詞和有意義串是指具備統計意義的串,新特徵詞和有意義串主要分為以下幾個類別(其中前兩類全部是詞語,後三類中既包括詞語又包括短語和片語):
(1). 具名實體,如 “民進黨”、 “巴西隊”等;
(2). 新造詞,指狹義新詞,如“部落格”、“戶型”、“撞衫”等;
(3). 領域術語,指領域相關的常用術語,如“計算語言學”、“未登入詞”、“股骨頭壞死”等;
(4). 固定搭配,主要指通用語料中經常使用的常用搭配,如“房屋需求”等;
(5). 成語、歇後語等慣用語,如“智者千慮,必有一失”,“仁者見仁,智者見智”等。
有很多學者用統計的方法提取有意義串,即根據一個字串的頻率、互資訊(Mutual Information,MI)、鄰接類別(Accessor Variety, AV)等統計量來判斷該串是否為有意義串。這種方法對高頻與意義串處理結果較好,但對很難有效提取低頻的有意義串。
而NLPIR文本搜尋與挖掘系統是針對互連網內容處理的需要,融合了自然語言理解、網路搜尋和文本挖掘的技術,提供了用於技術二次開發的基礎工具集。
NLPIR能夠全方位多角度滿足應用者對大資料文本的處理需求,包括大資料完整的技術鏈條:網路抓取、本文提取、中英文分詞、詞性標註、實體抽取、詞頻統計、關鍵詞提取、語義資訊抽取、文本分類、情感分析、語義深度擴充、繁簡編碼轉換、自動注音、文本聚類等。
靈玖軟體:大資料語言新特徵發現