「大資料」的能夠帶給企業競爭優勢的誘人條件,包括可以使用其來解鎖客戶的機密,瞭解網站使用方式和業務的其他關鍵要素。 但是,一切應以謹慎為准:如果沒有適當的資料管理過程,只是一味的熱情,HTTP://www.aliyun.com/zixun/aggregation/13844.html">大資料項目目可能會帶來混亂的麻煩, 包括虛假資料和意想不到的成本。
資料治理的作用便是為了保護大資料。 雖然大資料通常涉及到大量非結構化資訊,許多企業的IT部門發現大資料還僅僅只是最近的現象。 因此,根據資料管理分析師表示,大資料的環境治理還處在其早期階段,關於如何有效地進行大資料的管理還存在諸多廣泛的方法。
「大資料是這樣一個新的領域,到目前為止還沒有人開發出相關的管理程式和政策。 」Forrester研究公司的分析師BorisEvelson在麻塞諸塞州劍橋說。 「而且存在的問題比答案要多得多。 」
一個根本的問題是,大資料池更多的是面向資料的勘探和發現,而非傳統的商業智慧報告和分析,Evelson補充說。 他說,這帶來了一個惡性循環:「資料不能被管理直到其被模型化,但又必須在通過資料分析之後才能被模型化。 」
資料管理程式提供了一個框架,用於設置資料使用政策和實施控制,以確保資訊保持準確一致和可以被訪問。 顯然,在這個重大挑戰的過程中,管理大資料需要分類、建模和資料對應,並進行資料捕獲和儲存,特別是針對大量非結構化特性的資訊。
「為了從大資料中獲得有意義的商業資訊,我們需要做各種各樣的準備工作,類似于資料的語義分析,然後將其渲染成概念模型或本體的語義分析。 」位於新澤西州Holmdel的資料管理的顧問公司AskGet的總裁瑪律科姆·奇澤姆說。
在大資料中尋找線索
困難的是,大資料治理過程中的一切是那麼的新。 「在談到大資料時,存在著很大的不成熟,大部分資料管理者真的可以說是毫無頭緒。 」奇澤姆說。
大資料,其中也包括大量的結構性交易資料,具有特殊的功能。 通常用三個詞來定義:數量、種類和速度。 而Forrester還在其定義中增加了變化性這一特性,而其對手諮詢公司Gartner則將這一特性定義為複雜性。
此外,資料往往來自外部來源,其準確性並不總是能很容易地驗證;同時,文本資料的含義和上下文不一定是連貫的。 在許多情況下,它存儲在Hadoop的檔案系統或NoSQL資料庫,而不是傳統的資料倉儲。 對於許多企業來說,大資料涉及所有有關的人員:IT經理、程式師、資料架構師、資料建模師和資料管理專業人員。
美國麻塞諸塞州斯托雅典娜IT解決方案的創始人兼顧問裡克·謝爾曼說,試圖管理海量大資料的最大隱患之一是失去的業務優先順序的視線。
例如,被企業抓獲的大部分非結構化資料來自社會媒體,通常只有一小部分資訊是有價值的,根據謝爾曼介紹。 「試圖管理或控制一切非結構化資料,將是一個很大的錯誤。 」他警告說,企業最終可能會浪費時間和資源在不重要的資料上面。
加利福尼亞州紐華克GraniteFalls諮詢公司總裁DanetteMcGilvray表示,如果沒有經過理性的處理,大資料對資料管理和治理團隊來說只可能是在消磨時間。 「我們分辨大資料是否是值得管理的唯一途徑是:我們必須知道哪些業務需要這些資料。 」McGilvray說。 「當涉及到大資料,我們仍然必須記住這一點。 」
位於美國佛羅里達州奧蘭多的資料治理研究有限責任公司,是一家諮詢和培訓公司,其創始人兼總裁格溫·湯瑪斯建議,傳入資料的品質判斷應該是資料管理經理的首要任務之一。 她說,積極進行資料品質檢查,可以節省很多時間和減少很多麻煩。
湯瑪斯說,新資料對應到企業相關使用分類資訊參考資料的重要性經常被低估。 大資料與現有參考資料的對齊是「一個巨大的細節問題」她說。 「事實上,如果這樣做的不對,大資料的處理結果資訊可能會產生誤導,不准確或不完整的。 」
為了説明確保正確的資料對應,任務應該被分配到一個高級資料架構師,而不是留給一位不太有經驗的資料建模師或于IT無關的人員,湯瑪斯表示。
奇澤姆說,資料管理經理也應優先與那些經常啟動大資料裝置的程式師和資料模型企業使用者進行對話。 不過,這樣的討論應該從Hadoop和NoSQL的技術升值、以及他們與關係資料庫有何不同、已經對需要一個統一的方法來管理的理解開始。
企業應該避免讓程式師和使用者從筒倉驅動的角度來建立大資料系統和所需的資料模型和映射工作。 這可能會耗費很多的費用,造成設施不足,無法達到預期的商業利益,同時又浪費了不必要的系統投資。
(責任編輯:蒙遺善)