Hadoop——處理大資料的寵兒

來源:互聯網
上載者:User
關鍵字 大資料 他們 表示

驅動大資料增長的主要因素包括行動裝置和社交網路的大幅度增長、以往紙質檔的數位化以及科研資料的增長。 「他們的存檔檔正在高速增長,因為他們並不清楚哪些需要保存,哪些不需要保存,」EMC旗下的Isilon公司美國首席技術官Rob Peglar說道。

各個產業的公司都在為大資料分析投入大量資金。 其中一個產業為對病人資料進行分析診療的醫療產業。 Peglar說,在金融服務產業,對資料進行定性分析也頗受關注。 在這方面,分析的是雜亂無章的股票交易資料。 大資料分析在製造和設計業的應用也有所增長,但增長最快的市場還是對使用者行為資料進行分析以獲得市場情報資訊的社會媒體和電子商務產業。

Hadoop——處理大資料的寵兒

在眾多的大資料分析平臺當中,最為人所知的是ApacheHadoop平臺。 這是一個用於分散式運算的開源軟體框架。 Hadoop源于Google的MapReduce軟體框架以及Google使用的專有檔案系統「Google檔案系統」。 Hadoop專案的參與者包括雅虎、LinkedIn、Facebook、Twitter、加州大學伯克利分校、Last.fm等。

大資料分析需求的增長主要受雜亂無章的資料的驅動,這正是Hadoop所擅長處理的資料。 「這是對傳統結構化資料庫的補充,」Peglar說道。 「結構化資料在增長,但是雜亂無章的資料的增長率要快得多。 」

除非能部署一個由Isilon、Teradata或Oracle等公司提供的大資料應用,否則公司很有可能將類似Hadoop的分析平臺的計算基礎設施部署在商用硬體上。 451集團的資深分析師RachelChalmers稱,「Hadoop對其運行的基礎設施平臺做出了某些假設。 」

由於Hadoop基於Google的MapReduce,因此設想它將運行在類似Google的同質商用基礎設施之上。 此外,它還瞭解哪些CPU將用於伺服器硬碟存儲,」Chalmers解釋道。

沒有處理大資料的通用平臺

部署哪種類型的分析系統將取決於客戶的特定需求。 資料分析領域的主要公司Teradata的產品行銷總監JimDietz稱,某些客戶對處理速度的需求高於對處理數量的需求。 在這種情況下,他們會購買一個超高性能的應用。 而對於那些希望存儲並分析數千使用者行為資料的客戶,他們則需要可存儲各種海量資料,並具有高處理性能的解決方案。

對於專業存儲廠商來說,「我們與大資料廠商更多的是合作,不是競爭,因為產品架構不一樣。 硬碟廠商將硬碟提供給專業存儲廠家,專業存儲廠家再將多顆硬碟整合到一起提供給IT存儲廠商,IT存儲廠商的任務是將這些基礎存儲介質整合成一個應用系統給上端大量的資料來做存儲、交換、分析和保護。

此外,公司所部署的解決方案設計還必須具有足夠的靈活性,以應對未來的強勁增長需求。

大資料意味著高密度

Peglar說,可能影響資料中心管理者大資料(尤其是雜亂無章的大資料)基礎設施部署的首要因素是存儲。 這些存儲陣列的面積和電力需求取決於它們對能源及對可用存儲空間的使用效率。

計畫實施大資料分析

「例如,IT工作人員需要到各營業單位進行諮詢,看看這些營業單位是否有部署大資料應用程式,如Hadoop的需求,結果是沒有任何部門對其感興趣。 」科爾特說。 「如果沒有具體的業務需求或應用程式,那麼其就變成了僅僅只是一種單純的技術。 」

科爾特說,那些推出了大資料分析的企業,往往是在金融服務和醫療保健領域,在這些領域,大量的資料可以被用於歸結揭示趨勢和最佳做法。

TheInfoPro公司每年進行一次熱門技術指數調查,詢問數百名IT專業人士關於他們的技術計畫相關問題。 該公司最新調查活動是在2011年8月至今年四月期間進行的。

不足為奇的是,受訪者再次選擇伺服器虛擬化技術作為企業能力增長的主要驅動力,與光纖通道SAN是企業資料存儲的主要目標。 67%的受訪者表示,他們將80%到100%的生產伺服器連接到光纖通道SAN。

磁碟機容量的增長

然而,去年,隨著SAS、固態硬碟(SSD)和SATA磁碟機逐漸佔據企業占主導地位,使得光纖通道硬碟磁碟機市場大受打擊。

如果問問這些企業在2011年購買了什麼新的磁片存放裝置,48%的受訪者表示購買了光纖通道磁碟機,31%的表示SATA磁碟機,19%的為SAS,2%的為SSD固態硬碟磁碟機。 但是,當被問及這些企業今年採購增長最多的設備,41%的受訪者表示他們購買了SAS磁碟機,35%的為SSD固態硬碟磁碟機;23%的為SATA磁碟機;11%的表示為光纖通道。

2011年企業購買的磁碟機類型

在調查中發現,規劃部署SSD技術的企業數量從去年的7%躍升至今年的37%。

「這是一個非常大的飛躍,畢竟這些企業在之前並沒有計畫使用SSD固態硬碟。 這一比例從42%下降到23%。 」庫爾特說。

混合陣列和SSD固態硬碟

大多數企業資料中心使用SSD固態硬碟與旋轉盤的混合陣列,而新建的資料中心很多採用全固態陣列和伺服器SSD固態硬碟。 EMC作為固態混合陣列第一的供應商,遠遠超過競爭對手。 緊隨EMC之後的是由NetApp、日立資料系統(日立)、IBM公司、惠普、甲骨文和戴爾。

哪些供應商的產品正在使用混合陣列固態硬碟?

當被問及哪些供應商提供固態存儲伺服器,Fusion-io則高居榜首,其次是IBM、惠普、甲骨文、戴爾和希捷。 EMC為列第九,落後于NetApp。

調查顯示,排名前列的固態供應商分別為:Fusion-io公司、PureStorage公司、NimbusData、NimbleStorage公司、GridironSystems公司和Kove。 Kove公司除了生產所有DRAM設備之外,該公司同時還出售介面快閃記憶體卡和all-flash陣列或用具。

供應商固態伺服器首選是Fusion-io,其次是IBM公司、惠普、甲骨文和戴爾。 希捷位列第六。

當被問及他們是否會實施all-flash陣列,7%的受訪者表示他們已經在使用該技術,而86%的受訪者表示目前沒有實施的計畫。 另外,有4%的受訪者表示他們計畫購買all-flash陣列,但應該是在之後的半年到18個月的時間內。 2%的受訪者表示他們18個月之後實施該計畫。

馬特 沃特爾斯,是三菱電力系統美洲分公司的企業基礎設施的建築師,並未參與TheInfoPro公司的調查。 但他表示,他所在的企業在去年十二月安裝了來自NimbusStorage公司的all-flash陣列,以解決他們企業的SAP環境的I/O放緩問題。

沃特爾斯最初試圖把第二組處理器放入他所有的SAP伺服器中,升級記憶體達到其最大容量,但問題依然存在。 他最後回到TB尺寸的SAP資料庫和主存儲裝載資料縮小了性能問題,這在當時是採用的一個惠普的EVA陣列。 增加SSD到EVA的成本比購買all-flash陣列更昂貴,沃特爾斯說。

Nimbus公司的陣列支援2TB的存儲容量,成本約40000美元,他說。

Nimbus公司性能優越的快快閃記憶體儲陣列,不僅消除了資料庫的瓶頸,也將資料備份的時間從在EVA上的四小時削減到全新快閃記憶體陣列的15分鐘。

「到目前為止,其性能表現都讓我十分滿意。 沒有一個單一的故障。 」他說。 我在上午想到一個陣列,下午就可以上線了。 就這麼簡單。 」

沃特爾斯的環境隔離快閃記憶體存儲到一個應用程式:SAP。 但是,那些參與了TheInfoPro公司調查的人發現,資料自動分層,或陣列中的各個磁碟機類型之間遷移資料的能力,成為了最熱門的存儲技術。

自動分層將資料在高效固態硬碟之間移動,或隨著資料訪問頻率降低,從硬碟移動到大容量,低性能的磁片。

「其中的一個基本元件為磁片磁碟機,以及所選平臺對該磁碟空間的使用效率,」Peglar說道。 目前,功率密度是部署大資料分析平臺過程中計算領域的一個主要關注點;此外,磁碟陣列所消耗的電力也越來越成為關注的重點,他說道。

該關注主要源于所需存儲陣列的規模,以及這些存儲需求的增長率。 Peglar發現,在短短幾年的時間裡,某些客戶的集群從1拍位元組(petabyte)增長到了5拍位元組(petabyte)。

大資料計算節點部署的密度可能非常高。 Peglar說,這些部署的功率密度可達到3kW或更高。 這對於資料中心的管理者確定電力和製冷基礎設施的規格具有明顯意義。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.