標籤:
這幾天研究了一家美國的大資料公司1010data,它在產品白皮書中提出了新一代資料倉儲的概念(NEXT-GENERATION DATA DISCOVERY),相對於第一代資料倉儲,具有如下一些特徵:
l 使用者可以針對任何問題進行分析和查詢,也就是說,分析系統要提供更加友好的操作體驗,更加明細的資料粒度;
l 分析效率和水平擴充,在大資料量的情況下,也要保證分析過程的高效率;
l 資料混搭和資料分享,強調企業內部資料和外部資料的綜合分析,以及資料的貨幣化;
在它的報告中,同時也非常強調自助分析的重要性,要讓資料分析擺脫IT支撐部門的束縛,這其實和第一點的內容有些類似,只是更加強調了系統的易用性。為了進一步闡述它的觀點,白皮書將第一代資料倉儲和新一代資料倉儲進行了對比,如下:
總體上來講,我比較贊同它前面提出的新一代資料倉儲的特點,即易用、高效、擴充、資料分享等,但對於中的對比,我很難苟同,尤其是在速度、擴充兩個方面。傳統資料倉儲,資料規模也可能很大,比如,電信電訊廠商的話單資料量就可以很大,在資料倉儲建設中,必然要考慮處理速度以及擴充的問題,只是不會使用到目前階段很火的hadoop等,但可以使用分布式MySQL、並行計算等方面的技術,從而提高處理速度,解決裝置擴充的問題。
我個人認為,在大資料時代建設資料倉儲,著重要解決的就是打通企業內資料和企業外資料,實現“全資料”的挖掘和應用,這是大資料的精髓所在。之所以要實現全資料的分析,是基於以下考慮:
1) 可以更加全面的定位問題,提出解決辦法。傳統資料倉儲,由於只專註於打通企業內部的業務系統孤島,擷取到的是企業內部資料,是影響問題的企業內部因素,而引起問題的原因往往是複雜的,除了企業自身因素外,外部的宏觀因素、社會因素也是必不可少的分析內容,而傳統資料倉儲對此是無能為力的。
2) 針對未來的預測可以更加精確。大資料時代更加強調資料預測,利用資料採礦演算法實現輔助決策,而分析演算法的精確性,取決於影響預測結果的變數多樣性和準確性。例如,我們耳熟能詳的視頻推薦,根據使用者的收視曆史推薦最感興趣的內容,推薦演算法的命中率很大程度上取決於你所能找到的影響使用者收視興趣的變數,包括收視曆史、使用者分類、流行視頻等等,假設你收集企業內部的使用者收視曆史,缺少了外部群體的收視習慣,那麼你的推薦演算法就是有缺陷的,尤其是當使用者規模較小的時候,如第一時間擷取到大家正在追看《武媚娘》的訊號。
大資料環境下的資料倉儲建設(轉)