大資料總結 (zz)

來源:互聯網
上載者:User

最近剛看了新的一期《程式員》雜誌的一篇大資料的文章,總結的特別好,為了方便我去尋找所有將裡面的內容再次精簡後寫下來。

在這篇文章裡主要是幾個方面:
資料轉送、資料存放區、資料計算、資料展現、資料開發平台、資料應用市場

我之前對資料的總結在:資料存放區、資料管理、資料計算

 

資料轉送包括:即時同步、批量同步。一般常用方式採用時間軸。

資料存放區包括:核心級分布式儲存、使用者級分布式檔案儲存體、業務級資料存放區。

前兩個類別其實很好理解,最後一個是有分類的,包括:列式資料庫儲存、文檔資料庫儲存、K/V型資料庫儲存、圖形資料庫、關係型資料庫。以上資料庫都構建於檔案系統之上。

 

資料計算包括:離線計算、流式計算、即時計算、圖計算。

離線計算這是我們常用的(適應於很多情境),具體的體現就是在hadoop上運行M/R模型(有些離線計算,還是基於記憶體的方式)。

流式計算的依據資料時間的增長,而資料的價值會快速下降。它依賴於上遊資料轉送的正確性、即時性、下遊儲存系統的高輸送量,目前因為沒有這樣的業務,所以還沒能體驗流式計算。(使用的工具是Storm)

 

即時計算是根據查詢需求從海量資料中即時進行排名、排重、匯總等運算。此系統又分為兩類:線上資料應用和線上資料分析,前者目前在Google裡用的PowerDrill項目,在阿里集團用的Garuda項目;後者Google使用Dremel,Cloudera使用Impala(可分析Hbase和HDFS,與Hive共用中繼資料,這個工具也是後面我們需要調研),目前在Apache裡Drill開源項目也在開發中。

 

圖計算對使用者關係、網頁關係等資料的深度挖掘,涉及大型的矩陣計算、圖計算和網路計算。解決此類問題引入了MPI或BSP模型,目前Apache的Hama項目就是應用於此等情境。

 

資料展現簡單地講就是通過表格、餅圖、柱狀圖展現資料,也叫資料視覺效果。

 

資料開發平台和資料應用市場,這兩塊對我來說還是很陌生的,以後再好好琢磨吧。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.