雲計算的偉大之處就在於在進行大資料處理時不必再向以往一樣購買大量的伺服器集群,租用伺服器處理大資料更加利用控制成本。 Hadoop作為一個重量級的分散式處理開源框架已經在大資料處理領域有所作為,企業希望利用Hadoop來規劃其自身未來資料處理的藍圖。 從EMC、Oracle到Microsoft,幾乎所有高科技廠商都在過去幾個月中宣佈了自己以Hadoop為基礎的大資料戰略。 現今Hadoop已經成為IT商場吸引客戶的熱點詞彙。
Hadoop的成長得到了個人開發者、初創公司和大企業的支援。 這也給予使用者長時間使用Hadoop提供了潛在的信心。 但是由於不同廠商對代碼的持續改善也帶來產品相互無法操作的問題。 Hadoop目前的狀況和Android極其類似。
大多數企業並未真正瞭解大資料
「大資料」的優勢並不只是規模,還在於性能,無論資料集合的維數有多少。 這對於直接分析非常重要,例如評估某位客戶在網站上的行為來更好地瞭解他們需要什麼支援或尋找什麼產品,或者搞清當前天氣和其他條件對於送貨路線和時間安排的影響。 這正是伺服器集群、高效能檔案系統和並行處理的用武之地。 過去,這些技術過於昂貴,只能為大企業所採用。 今天,虛擬化和商用硬體大大降低了使用這些技術的成本,從而使「大資料」可為中小企業所用。
那些較小的企業還有另一條利用「大資料」分析的途徑——雲。 「大資料」雲服務開始出現,提供迅速、高效執行分析的平臺和工具。
Capgemini的CTO Joe Coyle就表示大資料將成為未來趨勢,但許多企業還不明白這其中的含義。 客戶詢問最多的就是雲計算和大資料這兩個概念。
現今在Hadoop技術大熱的同時業界也發出了不同的聲音。 一些廠商指出企業有些過於熱炒Hadoop的相關概念了。 搭建和維護Hadoop集群的複雜性需要相關從業人員專業知識的支援,而雇傭相關人員的代價是昂貴的。 JP摩根大通總經理Larry Feinsmith日前曾表示,他們不僅願意聘用合格的專業人士,還會提供比業界高出10%的優厚待遇。
並不是所有行業都應部署Hadoop
製造業務本身以及產品生命週期管理通常會給製造業的ERP和庫存系統製造大量的關係和非關係資料。 企業都希望擁有一個完美的大資料收集和分析解決方案,但是並不是所有企業都一定要即刻轉換到Hadoop。
通用電氣智慧平臺部門已經構建了檢測軟體以收集從複雜製造業中產生的各種資料。 這一舉措也推動了其自身Proficy Historian 4.5軟體更快的發展。 Proficy Historian承諾其提供的方法可比使用Hadoop更可靠。 通用公司企業資料管理部的Brian Courtney表示公司現成的解決方案可提供一個媲美Hadoop的環境,同時比Hadoop更具優勢的是他們的成本更低,同時要比Hadoop更好駕馭。
通用電氣擁有大量的歷史資料,這些歷史資料大多來自生產和測試階段。 Proficy Historian用來處理像波形一樣源源不斷的由產品製造和測試產生的關係和非關係資料,並可善加利用以便預測可能會發生的問題。
舉例來說,當渦輪發動機啟動時,Proficy Historian可檢測並查看相應的電子簽名。 在正常啟動並進行負載測試時如果有異常會發生怎樣的狀況? 之前有類似的狀況嗎? 當發現有和以往類似的系統故障時還可以查看解決此故障在以往所花費的時間,以便製造商選擇他們排除錯誤的優先順序。 Proficy Historian還可以通過和以往的歷史資料進行對比,以探究過往是否有類似的問題,並提前生成未來可能發生那些其他異常的報告。 Brian Courtney說到。
Proficy軟體的新版本旨在處理更多大資料。 Proficy的早期版本支援200萬個標籤,現今Proficy已支援多達1500萬個標籤。
亞馬遜部署HPCC在其雲計算平臺
亞馬遜已經將其雲計算平臺上的運行軟體調整為HPCC。 HPCC是LexisNexis公司推出的一款開源的資料處理方案。 這一舉措也讓HPCC系統替代現今流行的Hadoop想法又更進一步。
HPCC系統的CTO Armando Escalante在9月曾表示儘管HPCC現今還不能像Hadoop那樣吸引大型企業和政府,但這也促使HPCC的開發者生態環境的發展,就好象當年Hadoop一樣。
現今也有一些分析人士看好HPCC系統,不過HPCC社區要想成為像Hadoop社區那樣充滿活力還需要很長的一段路要走。 現今Amazon已經為HPCC在AWS或雲中運行帶來了一個良好的範例,HPCC支援AWS的Elastic MapReduce。 Amazon表示未來將帶來更多的驚喜。
從技術角度看,現今Amazon Web Services只運行了HPCC的處理大資料的部分方式——Thor Data Refinery Cluster。 該平臺還包括另一種處理資料的方式Roxy Rapid Data Delivery Cluster。 Roxy作為資料倉儲和資料查詢層起到的作用類似于Apache的Hive和HBase。
Hadoop專案中的HBase和Hive都擁有自己的語言。 而HPCC系統平臺則全部採用被稱之為ECL(Enterprise Control Language)的語言。
(責任編輯:蒙遺善)