標籤:大資料中文分析 漢語分詞 語義分析
大資料採礦中最重要的是決定挖掘什麼樣的知識,這是在資料的收集、處理、挖掘的整個過程中都需要認真考慮的問題。
大資料技術涉及儲存、搜尋、傳輸、計算、挖掘等多方面。大資料採礦旨在從大資料中挖掘出未知且有用的知識。通過挖掘,大資料的價值才得以體現,所以挖掘對大資料有著舉足輕重的意義。
大資料採礦有兩個基本問題,即“挖什麼(what to mine)”與“怎麼挖(how to mine)”。前者決定從資料中抽取什麼樣的資訊,統計什麼樣的規律,後者決定怎樣具體進行抽取與統計。前者是在資料的收集、處理、挖掘中都要考慮的問題,後者往往僅限於挖掘。“怎麼挖”通常是資料採礦研究的核心,但是“挖什麼”在資料採礦的應用中往往更為重要,因為它決定了挖掘結果的價值。在實際問題中,決定是挖金銀,還是挖銅鐵,比決定是用鋤頭挖,還是用鏟子挖更為關鍵。
靈玖LJParser網路搜尋與挖掘系統是網路搜尋、自然語言理解和文本挖掘的技術開發的基礎工具集,開發平台由多個中介軟體組成,各個中介軟體API可以無縫地融合到客戶的各類複雜應用系統之中.
靈玖LJParser網路搜尋與挖掘系統比較注重大資料的採集和資料整合:
1、收集資料是資料採礦的第一步,需要判斷記錄、採集哪些資料,這直接影響了能從資料中挖掘什麼樣的知識。巧婦難為無米之炊,沒有某一方面的資料,也就無法從中進行相關的挖掘。但是,儲存、處理資料是有代價的,提高資料採礦效率的關鍵也在於只記錄、採集有用的資料。所以,需要對收集資料的內容進行合理的判斷,這時,應該盡量設想挖掘的情境,在此基礎上將可能有用的資料全部記錄、採集下來。
2、盡量將資料整合,讓資料發揮更大作用的辦法是將相關資料整合在一起,用於挖掘。資料整合有助於協助瞭解事物的全貌,發現未知的關係,提升預測的準確率。局部資料只是“羅之一目”,而整體資料才是“彌天大網”。
大資料採礦關鍵是決定挖什麼,這比決定怎麼挖更為重要。收集資料時,應該盡量設想挖掘的情境,盡量多方面地記錄、採集資料;收集資料後,應該盡量將資料整合在一起;資料採礦前,應該悉心觀察資料,以協助判斷挖掘什麼樣的知識。只有這樣,大資料採礦的價值才能得以體現。
靈玖LJParser系統大資料語義挖掘的平台