來源:互聯網
上載者:User
關鍵字
大資料
大資料
大資料時代
大資料
大資料時代
同時
大資料
大資料時代
同時
難點
大資料
大資料時代
同時
難點
大資料分析
11月8日,截止到2011年底,全球線民數達22.67億;截止到2012年6月,中國線民達5.38億。 龐大的線民每時每刻產生大量的資料,據統計:每一分鐘全球電子郵件使用者共計發出2.04億封電子郵件;谷歌會處理200萬次搜索;Facebook使用者會共用68.4萬比特的內容...... 同時,同時,目前使用者在網上不僅僅是資訊,同時使用者發微博、上傳照片、上傳視頻等,導致資料類型呈現多樣性。 使用者所產生的資料量還將呈現出爆炸式的增長態勢,大資料時代已經來臨。
在使用者的資料量在成幾何級數增長的同時,無可否認海量使用者資料將會創造出巨大的價值,巨大的價值來源於對大資料的分析,但從目前來看,大資料處理和分析的能力遠遠沒有跟上,如何存儲、檢索、清理和分析大資料是難題。
在大資料儲存和備份方面,許多互聯網企業單日資料量以出現數十、數百TB(1TB=1024GB)速度的增加,而總數據量已達PB(1024TB)等級,其資料量已讓傳統的資料庫難以儲存大資料。 同時對企業來說,資料備份是至關重要的,缺乏資料備份可能會到導致企業毀滅性打擊。 目前大資料時代資料量爆炸式增長增加了備份和恢復的時間,存放裝置又是有限的,資料備份和恢復將越來越困難,同時得考慮資料儲存和備份如何節省電力、節約空間、節約成本等問題。
在大資料分析之前,必須對資料進行清理,包括檢查資料一致性、刪除重複值、處理無效值和缺失值等,對大資料來說,也包括的海量資料「噪音」,利用傳統的資料分析軟體來清理這些「噪音」,難度較大。 同時,需要快速把大資料中的核心資料幫浦出來,高效分析這些核心資料,需要建立高級分析模型,只有對核心資料進行複雜分析,發現趨勢和隱藏的資訊,才能使大資料真正發揮作用,才能讓企業洞察和發現商機。 大資料採礦需要軟硬體結合,這對軟體、硬體和人才提出了較高的挑戰。
另外,大資料視覺化也是難點。 大資料視覺化就是將大資料分析結果轉化為公司能夠使用的資訊。 只有大資料分析結果通過視覺化處理後,非資料分析專業人士能夠充分理解語言、圖表等表述出大資料所蘊含的資訊,才會給公司帶來的價值。 大資料所包含的資料量大,資料類型紛雜,資料模型複雜,資料結果抽象,視覺化難度也較大。
大資料分析專業人才缺乏。 大資料時代對資料分析師的要求更高,甚至會產生新職位,例如資料科學家,CDO(首席資料執行官)、資料視覺化人員和資料調整代理人等,目前來看,大資料分析職位沒有具體的從業標準。 但是大資料分析師必須要涉足多個領域,至少需要下面四個方面的技能:技術(軟體和系統等)、數學(統計、建模和演算法等)、商業分析(從事領域的相關知識)和視覺化(語言和圖表等), 目前一般企業用戶分析師或傳統的資料分析師僅具備上面一個或兩個技能,並不具備開發預言分析應用程式模型的技能。
「大資料」已經降臨,大資料所帶的難題也將在探索中得以解決。
(責任編輯:蒙遺善)