來源:互聯網
上載者:User
關鍵字
大資料分析
大資料分析
他們
大資料分析
他們
終結者
大資料分析
他們
終結者
資料倉儲
大資料分析
他們
終結者
資料倉儲
如果
「如果你真的想要瞭解發生在您企業業務中的真相,你需要大量的非常詳細的資料資料。 」HTTP://www.aliyun.com/zixun/aggregation/8302.html">資料倉儲研究院(TDWI)研究主任菲力浦?· 盧瑟姆在其最新的一份TDWI大資料分析報告中寫道。 「如果你真的想看一些你從未見過的東西,這有助於您挖掘從未被商業智慧分析過的資料。 」
這便是大資料分析存在的理由,其是前所未有的。 不僅僅是大資料概念的本身提醒著我們,至少我們還可以追溯到21世紀初,「彼時,存儲和CPU技術正被百萬百萬位元組的資料所淹沒,IT面臨著資料的可擴充性危機。 」針對大規模和不同的資料集的應用程式中先進的分析技術是前所未有的(如資料採礦)。 這便是大資料分析的出現所帶來的劃時代的意義了。 盧瑟姆說,這是資料可擴充性危機結束的信號。
這給企業帶來了前所未有的意義。 針對企業所收集的資料進行資料採礦、資料分析,並在某些情況下作出相關的報告。 這就是為什麼諸如資料抽樣這樣的實踐方案被視為企業相當務實的必需品。
「你不能把整個資料集都放入到資料採礦計畫中。 你必須選擇你所需要的資料,必須確保資料的正確性,因為如果你沒有投入正確的資料,你的技術可能不奏效。 」資料倉儲研究院研究員馬克?馬德森在預測分析研討會上告訴出席者。
「你可以將您所收集到的資料中的一個很小的比例投入挖掘... 概率事件的採樣。 」他繼續說,「但分解會非常罕見,成為非常罕見的事件,使其很難變成樣本。 」
理想情況下,你要找出所有這些「罕見」事件,他們屬於異常現象,如欺詐行為、客戶流失和潛在的供應鏈中斷。 他們是隱藏在你未分化的資料中的高價值的東西,很難找到。
IBM,微軟,甲骨文和Teradata,以及與其他大多數著名的BI和資料倉儲(DW)供應商,紛紛開始銷售整合了Hadoop的產品。 有些甚至大肆宣揚自己實現了無處不在的MapReduce演算法。
這些供應商不只是談論大資料,他們正在談論大資料結合先進的分析技術,如資料採礦,統計分析和預測分析。 換句話說,他們正在談論的是大資料分析。
根據資料倉儲研究院的研究顯示,大資料分析還沒有到來;尚未被主流所接受。 在資料倉儲研究院最近的調查中,超過三分之一(34%)的受訪者表示,他們所在的企業結合大資料,實行了某種形式的先進的分析。 在大多數情況下,他們僅僅採用非常簡便的方法。 例如,資料抽樣。
資料整合專家PervasiveSoftware公司的大資料產品的高級主管DaveInbar說,事實上,如果企業沒有考慮逐步淘汰抽樣調查和其他過去的所謂最佳實踐的「神器」,他們真的是後知後覺了。
「如果你繼續採用資料抽樣的方法,你可以實際處理所有資料,但資料的科學性本質上是削弱的。 」他說。 「在Hadoop的世界,沒有任何理由不採用商品硬體、真正的智慧軟體。 在過去,我們採用抽樣資料,可能還有經濟成本方面的考量原因,或者技術達不到的原因。 但在今天,這些原因都不復存在。 資料採樣在過去是最好的實踐方案,但我認為它的時代已經過去了。 」
「大海撈針的問題不適合採用樣本,所以你這樣過分強調訓練集,可能會導致問題。 」負責資訊管理諮詢的馬德森指出,「最終,運行整個資料集要比緊緊按照統計演算法和擔心樣本更容易。 技術可以在出現分配挑戰時處理資料的問題,並可以訪問統計方法。 」
(責任編輯:蒙遺善)