大資料將成為本年度的雲計算。 這是必然發生的結果:隨著時間的推移,企業產生的資料集已經越來越大了,這些資料包括客戶購買偏好趨勢、網站訪問和習慣、客戶審查資料等等;那麼您怎樣才能把這麼大量的資料整理成綜合形式呢? 傳統的商業智慧(BI)工具(關聯式資料庫和桌面數學計算包)在處理企業這麼大量的資料時已經有點不夠用了。 當然,資料分析行業也有開發工具和框架,支援資料研究人員和分析師們挖掘大資料集,並能承受得了資訊負載。
對於較大的公司來說,海量資料處理已經不是什麼新鮮東西了。 例如,Twitter和LinkedIn已經是大資料的著名使用者了。 這兩家公司已經各自形成了一套明顯的競爭優勢,通過挖掘他們的大規模資料倉儲來識別趨勢。 那麼,中型企業CIO該怎麼辦呢? 幸運的是,在你手邊就有可用的工具,可以讓你,或者更具體地說是你的商務分析師,可以支援大資料處理,不至於貪多嚼不爛。。
這些工具中有一款是免費的,即基於JAVA的Apache Hadoop程式設計框架。 該框架在過去一年到一年半時間裡在大資料領域獲得了極大的市場。 全球的行業專家和使用者們都把Hadoop稱為事實上的資料採礦標準。 縱觀現存其它大資料產品的表現,再考慮到Apache Hadoop1.0版是在2011年11月底才發佈的這一事實,Hadoop獲得這樣的認可確實令人驚訝。 Hadoop是如此流行,以至於Hortonworks公司CEO Eric Baldeschwieler預測在2017年它將處理全世界資料的半數之多。 在接下來的這一年,Hadoop將會以某種方式靠近您的組織的幾率非常大。
Hadoop主要面向開發人員。 其主要框架MapReduce支援程式設計者處理分散式運算機群的大規模資料量。 缺點是它是非常重型的產品。 而且,Hadoop可以把直接操作資料倉儲的技術人群與資料消費人群和資料翻譯員區分開來。
考慮到中型企業CIO的預算限制,下面有一些建議可以説明克服海量資料的挑戰:
不要忽略了趨勢。 大資料不會消失,不能忽略大塊資料分析轉換能力和分析資料趨勢。 花一些時間理解Hadoop以及其它大資料產品的功能和結構。 思考一下你擁有資料的方式可以為你的公司帶來改善。
為合格的資料科學家尋找預算空間。 這些人是您BI交響曲的打擊樂器。 市場上合格的資料科學家非常緊缺。 甚至在去年11月份的Hadoop世界大會上,培訓也成為了一個很大的話題。 要使用你培訓預算的自由額度聘請最好的人員,保持他們的資料分析技能是頂尖的。
理解大量資料集的存儲提示。 大資料其實是從多個地方和多個資料庫以近乎即時的速度挖掘海量資料,而不會受到結構的障礙。 這就使得你基礎設施中的存儲工作方式更加複雜了。 對於這些奴表,雲存儲可能會更靈活和敏捷嗎? 要與你的資料採礦策略團隊一起,使其優先理解利用Hadoop處理能力的存儲需求類型和數量。
準備好使用Hadoop的工具集。 理解微軟公司在這個領域的登場,試驗一下Hadoop-Excel和Hadoop-SQL Server集成看看你能交付什麼類型的結果。 也要瞭解一下IBM公司的工具,看哪一款更適合您在桌面和終端使用者軟體方面的現有投入。
大資料的角逐已經開始了。 可能在資料採礦變革中你已經落後了。 忽略資料分析大勢的CIO們實際上是在拿自己的職業冒險。 然而,對於已經跳入大資料領域並提取關鍵見解的CIO們,全世界都將在他們的掌握之中。
(責任編輯:蒙遺善)