這是個資訊“泛濫”的時代,大資料量司空見慣,企業處理大資料的需求也越來越大。本文梳理一下“大資料”的解決方案。
首先,關係型資料庫和案頭分析或者虛擬化包不能處理大資料,相反,運行在數千台伺服器上的大量並行軟體需要做這個工作。
許多機構轉向開源工具,比如Apache的 Hadoop來處理大資料。比如Twitter發送登陸資訊到Hadoop,並直接寫入HDFS,Hadoop檔案系統。
Hadoop支援資料密集的應用部署在數千節點和數個PB, David Hill, Mesabi Group 主席表示。
但是,大資料在針對不同類型的應用時,確不能一概而論。比如Hadoop並不一定適合所有的案例,Hill警告說。
大資料的捕捉、儲存、分析,依靠特殊的應用的特性,Hill強調。舉例scale-out網路連接的儲存EMC Isilon或IBM的SONAS,可能對於使用非結構化的資料比片、視頻,會更好。
大資料處理的類型
大資料的處理,可以歸為3個基本類型,Revolution Analytics的執行副總Mike Minelli表示,資訊管理、商業智慧,以及智能分析。
資訊管理捕捉和儲存資訊,BI分析資料,看過去發生的情況,智能分析則是對於資料的預測。Minelli說。
Revolution analytics提供開源R語言和 Revolution R Enterprise,提供TB量級資料的進階分析。Revolution Analytics正在開發Hadoop連接器和R語言在Google的Map/Reduce架構上的能力。
處理大資料的工具
提供了處理大資料分析能力的專有軟體包括 AsterData;IBM的專有軟體Netezza ; Datameer, 建立在Apache的Hadoop上的專有軟體,以及Paraccel。
IBM的Netezza,在它的InfoSphere產品中。Oracle 的Exadata,,以及EMC的Greenplum也是處理大資料量的專有工具。
EMC引入了Greenplum資料庫的免費社區版本,該社區版本只是軟體。Greenplum社區報表包括3個協作模組Greenplum DB, MADlib, 和Alpine Miner。
處理大資料量的開源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了報告、分析、ETLETL (解壓、轉換、載入) ,針對大量的並行分析資料庫,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報告,通過Hadoop和各種類型的NoSQL資料庫包括MongoDB, Riak, CouchDB and Infinispan的開源串連。
開源工具VS專有工具
開源工具可以查看代碼,這樣開發人員可以找到他們整合時裡面是什麼。在幾乎所有的案例中,開源分析都更具性價比和靈活性。Revolution Analytics的Minelli表示。
資料量在持續的增長,公司將被迫增加基礎設施的部署。專利費用將一直增加,而開源技術,則省了這筆一直持續的專利費。Twitter選擇Hadoop,其中重要的原因是專有工具的費用太高。
更長遠的來看,開源工具使企業建立新的分析技術,更好的處理非結構化的語言,比片等。而不能寄託於傳統廠商發展新的分析技術。開源工具給了企業創新的機會。
另外一個領域就是開源與專有工具的混合使用。
短期來講,開源分析將越來越廣泛的使用,並且增長迅速。長期來看,混合技術的應用將在高度競爭的市場上出現,兩者將同樣有巨大的需求。