標籤:style http color 使用 strong 檔案 ar 資料 2014
目前,幾乎所有世界級的互連網企業,都將業務觸角延伸至大資料產業。
無論社交平台逐鹿、電商價格大戰還是門戶網站競爭,都有它的影子。大資料,正由技術熱詞變成一股社會浪潮,影響社會生活的方方面面。
何謂大資料?大資料或稱巨量資料,是指所涉及的資料量規模巨大到無法通過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為協助企業經營決策更積極目的的資訊。(在 維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中,大資料指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有資料的方法)大資料的4V特 點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。那麼我們從定義上來理解一下“大資料”在《大資料時 代》所定義的四個特徵中,我們可以大概感知得到它的價值:資料體量大,資料類型多,資料價值密度低,資料具有時效性。
伴隨著各種隨身裝置、物聯網和雲端運算雲端儲存等技術的發展,人和物的所有軌跡都可以被記錄。在移動互連網的核心網路節點是人,不再是網頁。在資料大爆炸的背景下,大資料,也面臨著諸多挑戰.
來自於資料存放區方面的挑戰:大資料發展面臨的問題是來自不同地方、不同標準、資料量大、多種結構形式、即時性等多樣化要求的資料資訊。這些問題無疑增加了資料擷取和整合的困難,故此應修改基於塊和檔案的儲存系統的架構設計,以克服存在的問題。
來自於資料安全方面的挑戰:資料的持續增長帶來了資料的安全問題。首先,大資料因為目標大而在網路上更容易被發現;其次,大資料存在更敏感更有價值的資料,對潛在攻擊者的吸引力更大。此外,個人資訊的曝露,也會造成個人安全的問題。
來自於資料顯示方面的挑戰:與 資料分析相比,很多使用者往往更關心資料結果的顯示。傳統的以文本形式輸出結果或者直接在電腦終端上顯示結果的方法在面對小資料量或許是很好的選擇,但是對 於形式複雜的海量資料是不可行的。這就需要引入可視化技術來可視化最終甚至是中間的計算結果,此外,還需要人機互動技術或者資料起源技術,使得使用者在得到 結果的同時更好的理解結果的由來。
來自於資料成本控制方面的挑戰:對於那些正在使用大資料環境的企業來說,成本控制是關鍵的問題。想控製成 本,就意味著我們要讓每一台裝置都實現更高的“效率”,同時還要減少那些昂貴的組件。重複資料刪除等技術已經進入到主儲存市場,而且還可以處理更多的資料 類型,這都可以為大資料存放區應用帶來更多的價值,提升儲存效率。在資料量不斷增長的環境中,通過減少後端儲存的消耗,哪怕只是降低幾個百分點。當今,資料 中心使用的傳統引導磁碟機不僅故障率高,而且具有較高的維修和更換成本。如果用它替換資料中心的獨立伺服器引導磁碟機,則能將可靠性提升多達100倍。並 且對主機系統是透明的,能為每一個附加伺服器提供唯一的引導鏡像,可簡化系統管理,提升可靠性,並且節電率高達60%,真正做到了節省成本的問題。
來自於資料分析方面的挑戰:數 據分析是大資料處理流程的核心,因為大資料的價值就產生於分析的過程,但是它同樣帶來了很大的挑戰。首先,資料量大帶來更大價值的同時也帶來了更多的資料 噪音,在進行資料清洗等預先處理工作時必須更加謹慎,若清洗的粒度過細,很容易將有用的資訊過濾掉,而清洗的粒度過粗,又無法達到理想的清洗效果,因此在質 與量之間需要進行仔細的考量和權衡,同時也對機器硬體和演算法都是嚴峻的考驗。其次,傳統的資料倉儲系統對處理時間的要求並不高,而在很多大資料應用場的要 求。
大資料的意義是由人類日益普及的網路行為所伴生的。從海量資料中“提純”出有用的資訊,是一項非常龐大的工程,也是當下大資料時代面臨的重大挑戰。在經曆了近幾年來各界對大資料的批判、質疑、討論、炒作之後,大資料的發展依舊任重道遠。
淺談大資料的發展:問題和挑戰