企業級大資料處理方案03-資料流程

來源:互聯網
上載者:User

標籤:

資料處理過程分為資料採礦和資料分析,廣義上說資料分析泛指整個過程,然而資料分析大的流程大致相同,

資料採礦一般都要經過過濾、漂洗、匹配三個過程:

1.過濾:主要將資料中的不適合分析的資料過濾掉,就好比產品流水線的殘次品一樣,對資料進行組粒度的過濾,其規則可按資料大小,字元長短;

2.漂洗:也稱格式化,對資料進行分塊,資料也有組成的,有時間、資料來源、資料體等等,就好比頭、身體、腳一樣。將資料變成我們想要的格式,此過程也是打標籤的過程,意將資料分類處理。

3.匹配:匹配就是抽取欄位,將資料中的有用的地方抽取出來。(正則處理)由於資料的分類太多,無法完成所有的資料的匹配,這就需要機器自動識別。注意機器學習的結果並不精準,是故資料分開儲存。

資料採礦的過程也就是無格式資料和半格式化資料的格式化過程,換言之就是講資料規則化。

資料採礦過程結束後,就是資料分析階段,其過程

資料分析就是sql彙總操作,將資料格式化就是為了能夠用sql語言去處理資料,換句話說就是,想怎麼分析就怎麼分析,只要你會操作資料庫。

然而資料分析也有多層面的:按照維度劃分為一維、二維、三維分析。

一維分析主要基於表查詢,多個欄位、單個欄位、topN、分組等等的彙總函式

二維分析主要基於時間,為什麼這麼說呢,基於時間的分析就會複雜,多與預測有關係(預測那肯定不能人想,得機器想)

三維分析主要基於對象,對象怎麼說,是將資料模型化,資料模型化就好比Java類一樣,構造虛擬實體,基於實體的分析。

上述維度基於上一維度來說的。

有沒有四維、五維,有木肯定有木,舉個營運的例子:

例子:伺服器運行情況

伺服器A        2016-07-09 12:00:00   CPU:90%   Mem:90%

應用程式A     2016-07-09 12:00:00   CPU:40%   Mem:40%  (men>60%才能正常運行)

應用程式B     2016-07-09 12:00:00   CPU:40%   Mem:40%   (men>30%才能正常運行)

伺服器A系統  2016-07-09 12:00:00   CPU:10%   Mem:10%

所以應用程式A就會運行不正常

整個資料處理流程的完整流程圖:

 

企業級大資料處理方案03-資料流程

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.