大資料導論(3)——大資料解決方案的採用及規劃考慮

來源:互聯網
上載者:User

標籤:定義資料   被整合   收集   質數   dfs   提取   完成   組織   監視   

大資料項目由業務驅動,一套完整且優秀的大資料解決方案對企業的發展具有戰略性意義。

由於資料來源多樣,導致來自不同資料來源的資料類型、規模等具有不同的特徵。在處理分析大資料時,將涉及到更多維度(治理、安全等)。

因此在採用大資料分析前,需對項目的整個管理流程和決策架構提前考慮。需要考慮到的內容主要有:

1.先決條件

優質資料、完善的流程、優秀的員工、預設持續周期。

 

2.資料擷取來源

考慮來自所有渠道(內部和外部)、所有可用於分析的資料,同時包括資料格式、收集方式、規模等。

主要來源包括:企業內部(系統、資料管理系統DMS等)、企業外部(公開資料和商業資料)。

資料管理系統DMS——儲存邏輯資料、流程、策略和各種其他類型的文檔。

 

3.資料隱私管理

保護敏感性資料,制定相應的資料屏蔽(標記化、匿名化)和儲存措施。

 

4.資料安全

考慮使用使用者認證、授權機制以保證資料庫管理系統的安全。

非關係型資料庫通過使用明文通訊的API進行資料交換,缺乏安全性。

API(Application Programming Interface)——API,實現電腦軟體之間的相互連訊。可通過Postman工具進行調取。

 

5.中繼資料

大資料在生命週期的不同分析過程中,可能因傳輸、加工和儲存而處於不同的狀態。這些改變自動觸發中繼資料的產生,後續可作為對結果進行溯源的依據,同時保證資料的準確、可靠性。因此需要一個架構來儲存中繼資料。

 

6.時效性

不同業務對時效性的要求不同。由此分為批處理、流處理兩種處理方式。

不同的處理方式有不同的平台、硬體支援(例:Storm-免費開源的分布式流處理計算系統,Hadoop-免費開源的分布式批處理計算系統)。

 

7.硬體效能

由於資料量大,資料查詢和傳輸時間可能過長,因此需對相關硬體設施進行升級。

 

8.資料管理架構

在將資料傳入企業進行處理、儲存、分析、清除、儲存時,同時制定監視、構建、儲存和保護資料的流程和方針,有助於解決資料複雜性等問題。

資料管理架構還考慮以下內容:

  •  管理各種格式的大量資料;
  •  持續培訓和管理必要的統計模型,以便對非結構化資料和分析進行預先處理;
  •  為外部資料設定有關其保留和使用的策略和合規性制度;
  •  定義資料歸檔和清除策略;
  •  建立如何跨各種系統複製資料的策略;
  •  設定資料加密策略。

 

9.建立反饋迴圈機制

考慮建立適當的反饋迴圈機制,以最佳化分析步驟,獲得更準確的分析結果。

 

10.儲存、計算環境

提供了多個資料存放區選項,比如雲、關係型資料庫、非關係型資料庫、分布式檔案儲存體 (DFS)等。

但一般大資料環境都會全部/部分採用雲端式的託管。

 

當所有前期準備已做好時,即可著手開始解決實際業務。

針對具體項目,由於大資料與傳統資料的差異,大資料分析具有多樣性的需求,因此其具有獨特的生命週期,可分為9個階段:

                                    圖1  大資料分析的生命週期

 

1.案例評估:

“SMART”化 + 判斷是否為大資料問題(依據5V特徵) + 評估預算和收益。

  • Specific(具體的)——明確業務的理由、動因、目標;
  • Measurable(可衡量的)——制定KPI
  • Attainable(可實現的)——分析可用資源;
  • Relevant(相關的)——分析潛在威脅;
  • Timely(及時的)——能否按期實現。

 

2.資料標識:

儘可能找到不同類型的相關資料集,試圖從中發現隱藏資訊。

 

3.資料擷取、過濾

對擷取的資料進行歸類,並過濾“腐壞”資料,過濾前對資料進行備份、壓縮。

“腐壞資料”包括:遺失/無意義值/空值等非結構或不相互關聯類型。

 

4.資料提取

查詢提取出分析所需資料。同時,根據分析類型和大資料解決方案能力,將資料修改為需要的格式。

目前主要的挑戰是將非結構化資料格式(XML、Json等)轉化為便於分析的資料格式。

 

5.驗證、清洗

通過冗餘資料集,整合驗證欄位、填充缺失資料、移除已知的無效資料,以此檢驗具有關聯的資料集。(看似無效的資料可能蘊含某種隱藏規律,例:離群值可用於研究風險)

批處理的資料驗證清洗過程在離線ELT系統中進行,流處理在複雜的記憶體中進行。

 

6.Data Integration與表示

將不同來源、格式的資料,依邏輯上或物理上進行整合,並通過一個視圖(二維表等)表示出來的過程。同時,對部分整合資料進行儲存,以備後續資料分析使用。

Data Integration包括兩個層次——形式上的Data Integration、語義上的Data Integration。

  • 形式上的Data Integration:不同的作業系統、資料庫和程式設計語言對資料的基本類型所做的不同的定義,導致資料有不同的表示和儲存方式、不同系統間直接互相引用資料將產生不正確的結果。因此,需對資料的形式進行整合,採用轉換規則,最終建立具有統一標準結構的資料倉儲。
  • 語義上的Data Integration:不同資料集中,表示同樣內容的資料有不同的值,因此要求被整合的資料中語義一致的部分對齊,從而能被系統所處理。這部分工作可以人工完成,也可以機器輔助人工完成,但是在目前的技術水平還不支援完全由機器完成。

 

7.資料分析

通過不同的分析方法,試圖從資料中提取業務洞察。

資料分析方法可分為:描述性分析、驗證性分析(假設→檢驗)、探索性分析(歸納法)。

同時建立適當的迭代方式,重複多次分析,以提高分析出可靠結果的可能性。

 

8.資料視覺效果

針對不同使用情境,使用不同的可視化技術,將分析結果通過圖形進行展示。以便於專業分析人員與使用者進行交流,同時使使用者發現潛在答案成為可能。

 

9.分析結果的應用

流量分析層的輸出結果,使用者可能是可視化應用程式、人(決策者)或某項商務程序。

 

 

當已經決定構建 新的/更新現有的 大資料解決方案,下一步是識別大資料解決方案所需的組件,主要可從以下兩個視角來考慮。

1.大資料解決方案的邏輯層:

邏輯層提供了一種組織相關組件的方式,其中不同的組件執行不同的功能。

這些層只是邏輯層,並不意味著支援每層的功能獨立運作,相反各層之間聯絡緊密,資料在各層之間流動。

大資料解決方案通常由以下邏輯層組成:

  • 大資料來源
  • 資料改動和儲存層
  • 分析層
  • 使用層

2.垂直層:

影響邏輯層中所有組件的各方面都包含在垂直層中,垂直層包括以下幾層:

  • 資訊整合
  • 大資料治理
  • 系統管理
  • 服務品質

 

邏輯層和垂直層的組件及關係參考。

 圖2  邏輯層和垂直層的組件

大資料導論(3)——大資料解決方案的採用及規劃考慮

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.