大資料的特點,作用及處理技術

來源:互聯網
上載者:User
關鍵字 大資料

要理解大資料這一概念,首先要從」大」入手,」大」是指資料規模,大資料一般指在10TB(1TB=1024GB)規模以上的資料量。 大資料同過去的海量資料有所區別,其基本特徵可以用4個V來總結(Vol-ume、Variety、&#118alue和Veloc-ity),即體量大、多樣性、價值密度低、速度快。

大資料特點

第一,資料體量巨大。 從TB級別,躍升到PB級別。

第二,資料類型繁多,如前文提到的網路日誌、視頻、圖片、地理位置資訊,等等。

第三,價值密度低。 以視頻為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。

第四,處理速度快。 1秒定律。 最後這一點也是和傳統的資料採礦技術有著本質的不同。 物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的感應器,無一不是資料來源或者承載的方式。

大資料技術是指從各種各樣類型的巨量資料中,快速獲得有價值資訊的技術。 解決大資料問題的核心是大資料技術。 目前所說的」大資料」不僅指資料本身的規模,也包括採集資料的工具、平臺和資料分析系統。 大資料研發目的是發展大資料技術並將其應用到相關領域,通過解決巨量資料處理問題促進其突破性發展。 因此,大資料時代帶來的挑戰不僅體現在如何處理巨量資料從中獲取有價值的資訊,也體現在如何加強大資料技術研發,搶佔時代發展的前沿。

大資料作用

大資料時代到來,認同這一判斷的人越來越多。 那麼大資料意味著什麼,他到底會改變什麼? 僅僅從技術角度回答,已不足以解惑。 大資料只是賓語,離開了人這個主語,它再大也沒有意義。 我們需要把大資料放在人的背景中加以透視,理解它作為時代變革力量的所以然。

變革價值的力量

未來十年,決定中國是不是有大智慧的核心意義標準(那個」思想者」),就是國民幸福。 一體現在民生上,通過大資料讓有意義的事變得澄明,看我們在人與人關係上,做得是否比以前更有意義;二體現在生態上,通過大資料讓有意義的事變得澄明,看我們在天與人關係上,做得是否比以前更有意義。 總之,讓我們從前10年的意義混沌時代,進入未來10年意義澄明時代。

變革經濟的力量

生產者是有價值的,消費者是價值的意義所在。 有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。 大資料説明我們從消費者這個源頭識別意義,從而説明生產者實現價值。 這就是啟動內需的原理。

變革組織的力量

隨著具有語義網特徵的資料基礎設施和資料資源發展起來,組織的變革就越來越顯得不可避免。 大資料將推動網路結構產生無組織的組織力量。 最先反映這種結構特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維琪、博客等。 大資料之所以成為時代變革力量,在於它通過追隨意義而獲得智慧。

大資料處理

周濤博士表示:大資料處理資料時代理念的三大轉變:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。

大資料處理的流程

具體的大資料處理方法確實有很多,但是根據筆者長時間的實踐,總結了一個普遍適用的大資料處理流程,並且這個流程應該能夠對大家理順大資料的處理有所説明。 整個處理流程可以概括為四步,分別是採集、導入和預處理、統計和分析,最後是資料採礦。

大資料處理之一:採集

大資料的採集是指利用多個資料庫來接收發自用戶端(Web、App或者感應器形式等)的資料,並且使用者可以通過這些資料庫來進行簡單的查詢和處理工作。 比如,電商會使用傳統的關聯式資料庫MySQL和Oracle等來存儲每一筆交易資料,除此之外,Redis和MongoDB這樣的NoSQL資料庫也常用於資料的採集。

在大資料的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的使用者來進行訪問和操作,比如火車票售票網站和淘寶,它們併發的訪問量在峰值時達到上百萬,所以需要在採集端部署大量資料庫才能支撐。 並且如何在這些資料庫之間進行負載均衡和分片的確是需要深入的思考和設計。

大資料處理之二:導入/預處理

雖然採集端本身會有很多資料庫,但是如果要對這些海量資料進行有效的分析,還是應該將這些來自前端的資料導入到一個集中的大型分散式資料庫,或者分散式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。 也有一些使用者會在導入時使用來自Twitter的Storm來對資料進行流式計算,來滿足部分業務的即時計算需求。

導入與預處理過程的特點和挑戰主要是導入的資料量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

大資料處理之三:統計/分析

統計與分析主要利用分散式資料庫,或者分散式運算集群來對存儲于其內的海量資料進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些即時性需求會用到EMC的GreenPlum、Oracle的Exadata, 以及基於MySQL的列式存儲Infobright等,而一些批次處理,或者基於半結構化資料的需求可以使用Hadoop。

統計與分析這部分的主要特點和挑戰是分析涉及的資料量大,其對系統資源,特別是I/O會有極大的佔用。

大資料處理之四:挖掘

與前面統計和分析過程不同的是,資料採礦一般沒有什麼預先設定好的主題,主要是在現有資料上面進行基於各種演算法的計算,從而起到預測(Predict)的效果,從而實現一些高級別資料分析的需求。 比較典型演算法有用於聚類的Kmeans、用於統計學習的SVM和用於分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。 該過程的特點和挑戰主要是用於挖掘的演算法很複雜,並且計算涉及的資料量和計算量都很大,常用資料採礦演算法都以單線程為主。

整個大資料處理的普遍流程至少應該滿足這四個方面的步驟,才能算得上是一個比較完整的大資料處理。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.