標籤:中文大資料 漢語分詞 語義分析
自學習是指通過機器學習,自動抽取新的語言知識,以適應新的網路語言變化,做到因時而變。
智能學習也有人稱之為“軟計算”,是們受自然(生物界)規律的啟迪,根據其原理,模仿求解問題的演算法。從自然界得到啟迪,模仿其結構進行發明創造,這就是仿生學。這是我們向自然界學習的一個方面。另一方面,我們還可以利用仿生原理進行設計(包括設計演算法),這就是智能學習(計算)的思想。這方面的內容很多,如人工神經網路技術、遺傳演算法和群集智能技術等。
1、人工神經網路演算法
“人工神經網路”(ARTIFICIAL NEURAL NETWORK,簡稱ANN)是在對人腦組織圖和運行機制的認識理解基礎之上類比其結構和智能行為的一種工程系統。早在本世紀40年代初期,心理學家McCulloch、數學家Pitts就提出了人工神經網路的第一個數學模型,從此開創了神經科學理論的研究時代。其後,F Rosenblatt、Widrow和J. J .Hopfield等學者又先後提出了感知模型,使得人工神經網路技術得以蓬勃發展。
2、遺傳演算法
遺傳演算法(Genetic Algorithms)是基於生物進化理論的原理髮展起來的一種廣為應用的、高效的隨機搜尋與最佳化的方法。其主要特點是群體搜尋策略和群體中個體之間的資訊交換,搜尋不依賴於梯度資訊。遺傳演算法最初被研究的出發點不是為專門解決最佳化問題而設計的,它與進化策略、進化規劃共同構成了進化演算法的主要架構,都是為當時人工智慧的發展服務的。迄今為止,遺傳演算法是進化演算法中最廣為人知的演算法。
3、群體(群集)智能(Swarm Intelligence)
受社會性昆蟲行為的啟發,電腦工作者通過對社會性昆蟲的類比產生了一系列對於傳統問題的新的解決方案,這些研究就是群集智能的研究。群集智能(Swarm Intelligence)中的群體(Swarm)指的是“一組相互之間可以進行直接通訊或者間接通訊(通過改變局部環境)的主體,這組主體能夠合作進行分布問題求解”。而所謂群集智能指的是“無智能的主體通過合作表現出智能行為的特性”。群集智能在沒有集中控制並且不提供全域模型的前提下,為尋找複雜的分布式問題的解決方案提供了基礎。
而智能學習對中文挖掘和大資料語義分析也是非常重要的,它可以讓中文搜尋更準確、資訊更全面、儲存更合理。靈玖NLPIR文本搜尋與挖掘開發系統是一套專門針對原始文本集進行處理和加工的軟體,提供了中介軟體處理效果的可視化展示,也可以作為小規模資料的處理加工工具。其智能學習功能是針對中文分詞開發的自學習模組。
靈玖NLPIR文本搜尋與挖掘開發系統智能學習模組是基於統計機器學習的方法。首先給出大量已經分詞的文本,利用統計機器學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文本的切分。我們知道,漢語中各個字單獨作詞語的能力是不同的,此外有的字常常作為首碼出現,有的字卻常常作為尾碼(“者”“性”),結合兩個字相臨時是否成詞的資訊,這樣就得到了許多與分詞有關的知識。這種方法就是充分利用漢語組詞的規律來分詞。
中文挖掘智能學習已經成為大資料語義分析的趨勢