大資料應用:本機伺服器存儲勝過SAN?

來源:互聯網
上載者:User

磁片存儲就像是衣櫥,永遠不夠用,在大資料時代,這一點尤為突出。 「大資料」意味著需要比傳統存儲平臺處理更多的資料。 在為大資料選擇存儲服務時也並不是完全無跡可尋。

何謂大資料

首先,我們需要清楚大資料與其他類型資料的區別以及與之相關的技術(主要是分析應用程式)。 大資料本身意味著非常多需要使用標準存儲技術來處理的資料。 大資料可能由TB級(或者甚至PB級)資訊組成,既包括結構化資料(資料庫、日誌、SQL等)以及HTTP://www.aliyun.com/zixun/aggregation/13739.html">非結構化資料( 社交媒體帖子、感應器、多媒體資料)。 此外,大部分這些資料缺乏索引或者其他組織結構,可能由很多不同檔案類型組成。

由於這些資料缺乏一致性,使標準處理和存儲技術無計可施,而且運營開銷以及龐大的資料量使我們難以使用傳統的伺服器和SAN方法來有效地進行處理。 換句話說,大資料需要不同的處理方法:自己的平臺,這也是Hadoop可以派上用場的地方。

Hadoop是一個開源分散式運算平臺,它提供了一種建立平臺的方法,這個平臺由標準化硬體(伺服器和內部伺服器存儲)組成,並形成集群能夠並行處理大資料請求。 在存儲方面來看,這個開源專案的關鍵組成部分是Hadoop分散式檔案系統(HDFS),該系統具有跨集群中多個成員存儲非常大檔的能力。 HDFS通過創建多個資料塊副本,然後將其分佈在整個集群內的電腦節點,這提供了方便可靠極其快速的計算能力。

從目前來看,為大資料建立足夠大的存儲平臺最簡單的方法就是購買一套伺服器,並為每台伺服器配備數TB級的磁碟機,然後讓Hadoop來完成餘下的工作。 對於一些規模較小的企業而言,可能只要這麼簡單。 然而,一旦考慮處理性能、演算法複雜性和資料採礦,這種方法可能不一定能夠保證成功。

你的存儲架構

這一切都歸結到所涉及的存儲結構和網路性能。 對於經常分析大資料的企業而言,可能需要一個單獨的基礎設施,因為隨著集群中計算節點的數量的增長,頻寬開銷也會增長。 通常情況下,使用HDFS的多模計算集群在處理大資料時將會產生大量流量。 這是因為Hadoop在集群的成員伺服器間傳輸資料(以及計算資源)。

在大多數情況下,基於伺服器的本機存放區並沒有高效率的優點,這也是為什麼很多企業轉向使用高速光纖結構的SAN來最大限度地提高輸送量。 然而,SAN 方法本身並不一定適合大資料部署。 尤其是那些使用Hadoop的大資料部署,因為SAN承擔集中硬碟上資料的責任,這反過來意味著每個計算伺服器將需要訪問相同的SAN來恢復正態分佈的資料。

然而,當比較本機伺服器存儲和基於SAN的存儲時,本機存放區在兩個方面佔據優勢:成本和整體性能。 簡而言之,沒有在每個導出成員放置RAID的原始磁片在處理HDFS請求時將勝過SAN,然而,基於伺服器的磁片存在缺點,主要是在可擴充性方面。

問題是當伺服器依賴于本機存放區時,你如何在必要的時候增加更多的容量。 通常,有兩種方式來處理這種困境。 第一種方法是增加具有更多本機存放區的額外的伺服器。 第二種方法是增加集群伺服器的容量。 這兩種方法都需要購買和配置硬體,這將導致停機時間,可能還需要重新設計架構。 然而,無論使用哪種方法都要比向 SAN增加容量要便宜,可以說,這是一個顯著的成本優勢。

然而,當涉及到Hadoop時,還有其他存儲選擇。 例如,一些領先的存儲廠商都在建立專門針對Hadoop和大資料分析的存放裝置。 這些供應商包括 EMC,目前提供Hadoop解決方案,例如Greenplum HD Data Computing Appliance。 甲骨文正在考慮進一步深化Exadata系列設備,提供計算能力以及高速存儲。

最後一個存儲選擇是雲形式的存儲,Cloudera、微軟、Amazon和很多其他供應商都在提供基於雲的大資料解決方案,這些解決方案能夠提供處理能力、存儲和支援。

在選擇大資料存儲解決方案時需要考慮究竟需要多少空間,分析頻率如何以及需要處理什麼類型的資料。 這些因素,以及安全、預算和處理時間都是選擇大資料存儲解決方案時需要考慮的因素。

可能站在保險的角度來看,一個試點專案可能是一個不錯的開始,商品硬體也是大資料試點專案的低成本投資選擇。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.