對存儲容量複雜而無止境的需求讓存儲管理員感到十分頭疼。 以下我們將為大家介紹一些如何應對資料洪流的方法。
以往只有科研人員、互聯網巨頭以及亞馬遜、推特、臉譜和Shutterfly等社交媒體巨頭面臨這樣的問題,但是現在越來越多的企業開始嘗試通過大資料採礦來發現手中所掌握的有價值的資訊,並以此獲得競爭優勢。 如今,沃爾瑪、金寶湯、輝瑞默克和Wawa連鎖便利店等公司正在為他們的大資料制訂一套宏偉的計畫。
為了更快的回應客戶、更好的追蹤客戶資訊或是更迅速的向市場導入新產品,許多公司開始投資大資料分析。
市場研究機構IDC存儲分析師Ashish Nadkarni稱: 「對於身處互聯網時代的任何公司來說,如果他們不這樣做,那麼他們的競爭對手就會這些做。 」
目前所有機構都在逐漸被來自內部和外部的資料所淹沒。 在這些資料中,許多資料是即時傳輸過來的,其中又有許多資料只會被用上幾分鐘、幾小時或是幾天時間。
市場研究公司Aberdeen Group表示,因此而帶來的存儲需求增長對大型企業來說尤為棘手。 在這些大型企業中,從2010年至2011年,結構化和非結構化資料所需要的存儲容量平均增長了44%。 無論多大規模的公司,資料存儲需求每隔2.5年就會翻一番。 而且,對視頻存儲、試算表、格式化資料庫和純非結構化資料進行優化分別需要不同的工具。
Aberdeen 集團虛擬化和存儲分析師Dick Csaplar 稱:「能夠讓存儲方面的花銷不隨存儲需求增長而增長是一個挑戰。 」能夠説明主流大資料使用者避免陷入這一惡性循環的技術有存儲虛擬化、去重和存儲分層技術。 對於科研人員、社交媒體網站與模擬專案開發人員等大資料重度使用者,物件導向的和關聯式資料庫存儲都是不錯的選擇。
與內部日常存儲平臺相比,為了以易於訪問的格式存儲拍位元組級(和更大規模)資料,系統在設計上要更為複雜。 以下是專家對管理和存儲大資料提出的一些建議。
你正在分析什麼類型的資料?
所需的存儲類型取決於你分析的資料類型與數量。 全部資料均有一個保存期限。 例如,股票報價只在價格變動前的一或兩分鐘內重要。 棒球比賽得分對於人們來說只需要保存24小時或是直到下一場比賽時。 這一類型的資料在最需要的時候應當保存在主儲存體中,隨後即可以轉移至廉價的儲存體內。 多年來的觀察已經證明了這一理念,即被長期存儲的資料通常並不需要存儲在容易被訪問到的主磁碟機上。
你實際上需要多大存儲容量?
在存儲大資料時,你需要的存儲容量和類型取決於你所需要存儲的資料大小和這些資料的使用時限。
在大資料分析中涉及三種類型的資料。 Nadkarni稱:「它們能夠將來自多個來源的資料每秒源源不斷的傳輸給你,在這些資料失去時效性之前,你的時間切片應當為數分鐘。 」這類資料包括天氣、交通、社交網路上的趨勢話題和關於全球事件的推文等更新資訊。
大資料還包括了那些休眠資料或是公司為了適度使用而生成和控制的資料。
資料傳輸需要快速捕獲和分析能力。 Nadkarni稱:「一旦你分析了它們,你就不再需要它們了。 但是對於休眠資料或被公司控制的資料,你應當將它們存儲起來。 」
哪種類型的存儲工具更合適?
對於那些剛開始涉足大資料存儲和分析的公司,行業觀察人士建議採用將所有的存儲將放在一個保護傘下的存儲虛擬化技術、去重壓縮資料技術和分層存儲方案,以確保最有價值的資料被存儲在最容易被訪問的系統中。
存儲虛擬化提供了一個軟體抽象層,讓使用者無法找到物理設備,並且允許所有設備作為一個單一的池被管理。 儘管伺服器虛擬化已經成為了目前IT基礎設施中一個成熟元件,但是存儲虛擬化仍然未被廣泛接受。
在2012年2月份,Aberdeen對106家大型公司進行了調查。 結果顯示,僅有20%的受訪者表示他們擁有一個單獨的存儲管理應用。 平均下來,3個管理應用對應3.2個存放裝置。
儘管如此,許多存儲廠商並不願意讓自己生產的設備接受其他廠商產品的管理。 Csaplar稱:「存儲虛擬化非常複雜並且極為耗時。 因此它們無法像伺服器虛擬化那樣被廣泛接受。 」相反,許多存儲管理員正在關注針對第三或第四層存儲的雲解決方案,因為雲方案能夠更為容易地在不同基礎設施之間轉移資料,同時可以降低存儲成本。 他補充稱:「許多公司已經這麼做了,並且收到了良好的效果,但是距離人們的期望值還存在一定的差距。 」
Csaplar希望看到,隨著網路連通性的改善、成本的下降以及傳輸過程中資料加解密能力的提升,雲存儲和其它基於雲的計算資源的使用率在不久的未來出現增長。 他稱:「有了雲,你可以從運營預算中結算每月的帳單,而不無需單獨的資金預算。 」
(責任編輯:蒙遺善)