大資料的部署實施需要結合具體的應用場景。 實際上,HTTP://www.aliyun.com/zixun/aggregation/13861.html">企業大資料的存儲處理可以用 「三隻小豬蓋房子」(分別使用稻草、木頭和磚頭)的故事來說明, 這個故事能更形象地反映資料存儲環境下與交付服務(成本)相對應的不同保護層級(完整性和可靠性)。
財務資料、對外報告和法規遵從性資料需在「磚房」(BRICKS)環境中存儲處理。 這些資料需要可靠的硬體基礎設施,並與其原始來源保持一致。 企業中多個職能部門使用產品服務定價決策、銷售業績及分析以及至關重要的員工/管理層薪酬激勵機制計算等財務資料,這是很常見的情況。
精心設計的「木房」(STICK)環境可確保存儲資料牢固耐用。 該環境專用於應用程式,而並非針對企業級使用和跨職能部門資料共用而設計。 該資料類型可專門用於資料轉換,通常包括大量行銷資料集市。 僅資料轉換、協調及沿襲等必要功能即可滿足特定商業用途。 與上述「磚房」相比,「木房」從本質上講,成本更低,速度更快。
最後介紹「草房」(HAY)。 「草房」實際上是指在需要使用資料的特定日期對資料進行轉換、分組及匯總。 其中,資料可能以原始來源的資料格式存在,幾乎不需要任何資料結構。 使用者可任意調整資料格式。 雖然 「草房」設計無法輕易複製或縱向擴展,卻適用于應對非特定、非重複性商業問題。 該方案對資料協調及複製的需求低。
使用「三隻小豬」的類比相當直觀,但具體解決方案應參考資料管控(Data Governance)方針。 如能應對自如,營業單位希望快速獲得低成本解決方案;而IT部門則需要依託可靠的解決方案,提供健全、可靠的服務。 這也是業務及IT部門大多數討論中的固有矛盾。
由於部署迅速、成本低且失敗的代價低,「草房」解決方案備受關注。 在新的經濟機制下,特別是在自助式環境下使用者對資料(包括大資料)價值的認可,是資料實驗室和探索環境快速發展的原因。 因此,營業單位選擇快速、低成本的解決方案也不足為奇。
但將「草房」方案升級為「木房」或「磚房」環境時,IT部門的成本令人非常震驚。 「為什麼他們不能使用我們兩周內設計的解決方案?」 他們可以。 但在「草房」的基礎上部署「磚房」甚至是「木房」方案都行不通。 利用「草房」的設計方案部署「木房」及「磚房」方案,將浪費IT部門大量預算。
其主要挑戰是識別資料重要性的資料管控策略和過程。 在「草房」環境中設計出的「創意」方案需遷移至更穩定的環境時,參與資料管理方式(草房、木房還是磚房)決策的相關負責人需要全面瞭解下游資料的重要性。