大資料:存儲技術必須跟上
來源:互聯網
上載者:User
「大資料」 通常指的是那些數量巨大、難於收集、處理、分析的資料集,亦指那些在傳統基礎設施中長期保存的資料。 這裡的「大」有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業中IT基礎設施的規模。 業內對大資料應用寄予了無限的期望 商業資訊積累的越多價值也越大 只不過我們需要一個方法把這些價值挖掘出來。
也許人們對大資料的印象主要從存儲容量的廉價性而來,但實際上,企業每天都在創造大量的資料,而且越來越多,而人們正在努力的從浩如煙海的資料中尋覓有價值的商業情報。 另一方面,使用者還會保存那些已經分析過的資料,因為這些舊資料可以與未來收集的新資料進行對照,依然有潛在的利用可能。
為什麼要大資料? 為什麼是現在?
與以往相比,我們除了有能力存儲更多的資料量之外,還要面對更多的資料類型。 這些資料的來源包括網上交易、網路社交活動、自動感應器、行動裝置以及科學儀器等等。 除了那些固定的資料生產源,各種交易行為還可能加快資料的積累速度。 比如說,社交類多媒體資料的爆炸性增長就源于新的網上交易和記錄行為。 資料永遠都在增長之中,但是,只有存儲海量資料的能力是不夠的,因為這並不能保證我們能夠成功地從中搜尋出商業價值。
資料是重要的生產要素
資訊時代,資料儼然已成為一種重要的生產要素,如同資本、工作力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業的應用。 各行各業的公司都在收集並利用大量的資料分析結果,盡可能的降低成本,提高產品質量、提高生產效率以及創造新的產品。 例如,通過分析直接從產品測試現場收集的資料,能夠説明企業改進設計。 此外,一家公司還可以通過深入分析客戶行為,對比大量的市場資料,從而超越他的競爭對手。
存儲技術必須跟上
隨著大資料應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。 畢竟處理大資料這種特殊的需求是一個新的挑戰。 硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大資料分析應用需求正在影響著資料存儲基礎設施的發展。
從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。 隨著結構化資料和非結構化資料量的持續增長,以及分析資料來源的多樣化,此前存儲系統的設計已經無法滿足大資料應用的需要。 存儲廠商已經意識到這一點,他們開始修改基於塊和檔的存儲系統的架構設計以適應這些新的要求。 在這裡,我們會討論哪些與大資料存儲基礎設施相關的屬性,看看它們如何迎接大資料的挑戰。
容量問題
這裡所說的「大容量」通常可達到PB級的資料規模,因此,海量資料存儲系統也一定要有相應等級的擴展能力。 與此同時,存儲系統的擴展一定要簡便,可以通過增加模組或磁片櫃來增加容量,甚至不需要停機。 基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。 Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備資料處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。
「大資料」應用除了資料規模巨大之外,還意味著擁有龐大的檔數量。 因此如何管理檔案系統層累積的中繼資料是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。 所幸的是,基於物件的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的檔數量,而且還不會像傳統存儲一樣遭遇中繼資料管理的困擾。 基於物件的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。
延遲問題
「大資料」應用還存在即時性的問題。 特別是涉及到與網上交易或者金融類相關的應用。 舉個例子來說,網路成衣銷售行業的線上廣告推廣服務需要即時的對客戶的流覽記錄進行分析,並準確的進行廣告投放。 這就要求存儲系統在必須能夠支援上述特性同時保持較高的回應速度,因為回應延遲的結果是系統會推送「過期」的廣告內容給客戶。 這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯元件,在增加容量的同時處理能力也可以同步增長。 而基於物件的存儲系統則能夠支援併發的資料流程,從而進一步提高資料輸送量。
有很多「大資料」應用環境需要較高的IOPS性能,比如HPC高性能計算。 此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。 為了迎接這些挑戰,各種模式的固態存放裝置應運而生,小到簡單的在伺服器內部做快取記憶體,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
併發訪問 一旦企業認識到大資料分析應用的潛在價值,他們就會將更多的資料集納入系統進行比較,同時讓更多的人分享並使用這些資料。 為了創造更多的商業價值,企業往往會綜合分析那些來自不同平臺下的多種資料物件。 包括通用檔案系統在內的存儲基礎設施就能夠説明使用者解決資料訪問的問題,通用檔案系統允許多個主機上的多個使用者併發訪問檔資料,而這些資料則可能存儲在多個地點的多種不同類型的存放裝置上。
安全問題
某些特殊行業的應用,比如金融資料、醫療資訊以及政府情報等都有自己的安全標準和保密性需求。 雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大資料分析往往需要多類資料相互參考,而在過去並不會有這種資料混合訪問的情況,因此大資料應用也催生出一些新的、需要考慮的安全性問題。
成本問題
「大」,也可能意味著代價不菲。 而對於那些正在使用大資料環境的企業來說,成本控制是關鍵的問題。 想控制成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。 目前,像重復資料刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的資料類型,這都可以為大資料存儲應用帶來更多的價值,提升存儲效率。 在資料量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。 此外,自動精簡佈建、快照和克隆技術的使用也可以提升存儲的效率。