標籤:
資料處理過程分為資料採礦和資料分析,廣義上說資料分析泛指整個過程,然而資料分析大的流程大致相同,
資料採礦一般都要經過過濾、漂洗、匹配三個過程:
1.過濾:主要將資料中的不適合分析的資料過濾掉,就好比產品流水線的殘次品一樣,對資料進行組粒度的過濾,其規則可按資料大小,字元長短;
2.漂洗:也稱格式化,對資料進行分塊,資料也有組成的,有時間、資料來源、資料體等等,就好比頭、身體、腳一樣。將資料變成我們想要的格式,此過程也是打標籤的過程,意將資料分類處理。
3.匹配:匹配就是抽取欄位,將資料中的有用的地方抽取出來。(正則處理)由於資料的分類太多,無法完成所有的資料的匹配,這就需要機器自動識別。注意機器學習的結果並不精準,是故資料分開儲存。
資料採礦的過程也就是無格式資料和半格式化資料的格式化過程,換言之就是講資料規則化。
資料採礦過程結束後,就是資料分析階段,其過程
資料分析就是sql彙總操作,將資料格式化就是為了能夠用sql語言去處理資料,換句話說就是,想怎麼分析就怎麼分析,只要你會操作資料庫。
然而資料分析也有多層面的:按照維度劃分為一維、二維、三維分析。
一維分析主要基於表查詢,多個欄位、單個欄位、topN、分組等等的彙總函式
二維分析主要基於時間,為什麼這麼說呢,基於時間的分析就會複雜,多與預測有關係(預測那肯定不能人想,得機器想)
三維分析主要基於對象,對象怎麼說,是將資料模型化,資料模型化就好比Java類一樣,構造虛擬實體,基於實體的分析。
上述維度基於上一維度來說的。
有沒有四維、五維,有木肯定有木,舉個營運的例子:
例子:伺服器運行情況
伺服器A 2016-07-09 12:00:00 CPU:90% Mem:90%
應用程式A 2016-07-09 12:00:00 CPU:40% Mem:40% (men>60%才能正常運行)
應用程式B 2016-07-09 12:00:00 CPU:40% Mem:40% (men>30%才能正常運行)
伺服器A系統 2016-07-09 12:00:00 CPU:10% Mem:10%
所以應用程式A就會運行不正常
整個資料處理流程的完整流程圖:
企業級大資料處理方案03-資料流程