「大資料」 需要大量計算資源來存儲、組織處理與報告結果。 這一新興領域改變了資料中心伺服器與其他基礎設施的選擇與部署方式。
為了在現今的商業環境中競爭並獲得成功,公司必須通過對現有資料進行多維度的分析,才能做出業務決策。 分析這些不斷膨脹的大資料已經成為越來越重要的趨勢與機遇。
SearchDataCenter諮詢委員會將介紹受大資料影響的商業模式,如何改變企業資料中心的運作,並為大家提供關於新資料中心機會的獨特見解。
只需添加SAN
獨立培訓師兼顧問Sander van Vugt
大資料其實不是個很嚴重的問題。 我的意思是,資料中心不會突然因為大資料的來到而突然變更他們處理海量資料的方式。
我的看法相當簡單:只需添加另一個存放區域網路(SAN),現在的SAN比早期具備更高的可擴充性。 這意味著企業可以開始學習處理兩個不同等級存儲網路的資料:一個是他們正在使用的關鍵資料,一個是仍然需要被保存,但不那麼重要的資料。
業務應用會帶來越來越多的大資料機會
IT研究與分析公司Quocirca的創始人兼IT研究與服務總監Clive Longbottom
我們還處在真正企業級大資料的起跑線上,路還很長。
現在,資料中心使用存儲虛擬化來組織聯合資料來源。 商業智慧(BI)提供更先進的大資料處理方案,如Pentaho、Logi、QlikTech與Birst。 基於JAVA的程式設計框架Hadoop被更先進的企業作為非持久性篩檢程式來處理多重資料類型。 NoSQL 資料庫,例如MongoDB與CouchBase,成為處理非結構化資料的有效利器。 管理工具則有Splunk,可以協助完成伺服器之間的資料檔案管理等工作。
這些工具都需要使用自己的基礎設施來支援,並需要精心設計以得到理想的結果。 分析及服務提供者不斷湧現,提供BI與雲計算能力——許多組織最終都會朝這個方向發展,以避免混合環境的複雜性。 IBM、Teradata、EMC與其他廠商提供混合設備來滿足業務需求,可以滿足使用者保留所有線上資料並從外部資源吸取額外的資訊。 混合設備處理架構處理介於與非結構化資料,處理方式比當前的大資料結構更加工程化,但造價也相當不菲。
選好伺服器、存儲與架構
高級技術編輯Stephen J. Bigelow
選好用於資料分析的工具,如Hadoop與MapReduce軟體,它可以將任務分佈到數千節點(處理器)上進行計算,並負責將結果收集起來。
軟體所使用的高可擴充性任務分散式運算方案與傳統的單線程執行有著本質上的不同,意味著大型伺服器就擁有最大與最強的計算能力。 可以假設大型的伺服器也擁有最多的處理器核心,如Intel的Xeon E7-8800 v2處理器,擁有15個核心,並且支援超執行緒。 資料中心可以通過購買這些伺服器來解決大資料計算處理的問題。
精簡指令集處理器是許多大資料伺服器的另一種選擇,它可以提供大量的處理器核心,而產生的熱量比傳統的x86處理器少得多。 Dell開發了基於Calxeda ARM晶片的Zinc伺服器來支援企業應用。
雖然更多處理器需要額外的記憶體空間來處理與存儲結果,大資料更專注于計算任務,所以伺服器的記憶體總和可能會非常之大,甚至超過大幾百G。 例如,HP的ConvergedSystem的Vertica Analytics Platform擁有128G記憶體,IBM的 System x針對Hadoop的參考架構要求伺服器具備384G記憶體。
大資料伺服器同樣還可以集成圖形處理單元,如NVIDIA公司的Tesla K40,因為GPU被設計為處理複雜的數學計算,如雙精度浮點計算可以達到 1.4T flops(一個TFLOPS(teraFLOPS)等於每秒一兆(= 1012)次的浮點運算)。 大量數學計算可以從多個處理器中卸載到單個GPU上,還無需附加系統記憶體。
任何大資料平臺在評估時都必須考慮基礎設施,如網路和存儲。 多埠網卡可以説明伺服器之間分配工作量。 從千兆乙太網升級到萬兆乙太網,可以在大資料環境下發揮更高利用率。 還必須有足夠多的交換器埠(千兆或者萬兆乙太網),以滿足所有伺服器埠的連接需求。 此外,IT架構師還可以考慮將每個伺服器的埠分攤到不同的交換器上,構建更強大可用的環境。 資料中心可能需要為更新型號的網路交換器,提供更多預算。
Hadoop與其他大資料應用程式通常通過使用本機存放區與獨立處理器,而不是共用存儲來提升性能。 將磁片任務分配到許多磁片上獨立運行,可以最小化磁片延時。 同樣還可以考慮使用固態硬碟替換傳統的機械硬碟,甚至還可以使用更快的、基於PCIE介面的固態硬碟加速卡來提升性能。