標籤:
大資料指的是海量資料的分析處理,可能是EB級的數量處理,我們之前也提到過大資料擁有4V特性,Volume(大量)、Velocity(高 速)、Variety(多樣)、Value(價值),對於大資料的分析處理,需要有專門設計的硬體和軟體工具進行專業化處理,大資料經過收集再到清洗計算 挖掘再到展現和利用,每一步可用的工具都不同,下面我們就來扒一扒大資料領域一些工具 + 生產力吧。免費好用的像八爪魚採集類似的工具也會推薦哦,借用當下的某 名言,你若有用,我便免費到底!
1、 收集工具
由於大資料資料集的體量非常巨大高達EB級,而資料來源來來自於各種公開資訊、感應器、氣候等各種渠道,以互連網渠道舉例,網站公開資訊、交易記錄、 評價資訊、部落格、視頻、事監控、大型電子商務、門戶資訊或垂直媒體等各種渠道。像八爪魚採集器也是新一代採集技術的大資料收集工具,除此以外,資料來源 收集這塊目前比較常見的工具有:
scraperWIKI(可從多種資料來源擷取資料,產生自訂視圖)
needlebase(可編寫代碼自動化抓取公開網站)
bazhuayu(可抓取超過98%的網頁資料及60%的移動端資料)
2、 資料處理
Hadoop (能夠對大量資料進行分散式處理的軟體架構,具有高可靠性、高擴充性、高效性和高容錯性)
Storm(分布式即時計算系統,開源系統,支援多種程式設計語言,可處理Hadoop的批量資料)
Apache Drill(有助於Hadoop使用者實現更快查詢海量資料集)
RapidMiner(分布式資料採礦,免費提供資料採礦技術和庫,支援JAVA代碼)
3、 資料存放區(計算)
Apache Hadoop
NoSql 資料庫 – MongoDB, Cassandra, Hbase
SQL 資料庫 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB
4、 資料清洗
DataWrangler(基於網路服務的可視化組資料清洗和重排工具,文本編輯簡單,但不適合商業或敏感資訊處理)
Google Refine(支援多種格式資料的群集,無試算表計算功能)
OpenRefine (互動資料轉換工具,可對新的行資料進行編碼)
5、 資料分析
Jaspersoft(報告和分析伺服器)
Pentaho(Data Integration和業務分析)
Splunk(IT分析平台)
Talend(大Data Integration,資料管理和應用整合)
6、展現工具
可視化展現工具
EXCEL/ CSV/JSON(很對企業人員均會用到的資料分析工具)
Google Chart API(動態表徵圖工具,須支援JavaScript的裝置上使用)
Flot(線框圖表庫,支援所有支援canvas的瀏覽器)
D3(支援SVG渲染的另一種JavaScript庫,提供大量線性圖和橫條圖之外的複雜圖表樣式)
Processing(資料視覺效果的招牌工具,編寫簡單的代碼即可編譯成JAVA)
FUSION TABLES(可根據地理位置可視化資料)
Gephi(進行社交圖譜資料視覺效果分析的常用工具)
SPSS和SAS
R(大資料預測性分析工具)
Modest Maps(本身的地圖庫較小,但是配合WAX等擴充庫很強大)
OpenLayers(可靠性高的地圖庫)
除了上述介紹的一些工具外,每個類別還有很多其他的工具可實現,有興趣的朋友可以進一步去瞭解。
大資料技術