標籤:定義資料 被整合 收集 質數 dfs 提取 完成 組織 監視
大資料項目由業務驅動,一套完整且優秀的大資料解決方案對企業的發展具有戰略性意義。
由於資料來源多樣,導致來自不同資料來源的資料類型、規模等具有不同的特徵。在處理分析大資料時,將涉及到更多維度(治理、安全等)。
因此在採用大資料分析前,需對項目的整個管理流程和決策架構提前考慮。需要考慮到的內容主要有:
1.先決條件
優質資料、完善的流程、優秀的員工、預設持續周期。
2.資料擷取來源
考慮來自所有渠道(內部和外部)、所有可用於分析的資料,同時包括資料格式、收集方式、規模等。
主要來源包括:企業內部(系統、資料管理系統DMS等)、企業外部(公開資料和商業資料)。
資料管理系統DMS——儲存邏輯資料、流程、策略和各種其他類型的文檔。
3.資料隱私管理
保護敏感性資料,制定相應的資料屏蔽(標記化、匿名化)和儲存措施。
4.資料安全
考慮使用使用者認證、授權機制以保證資料庫管理系統的安全。
非關係型資料庫通過使用明文通訊的API進行資料交換,缺乏安全性。
API(Application Programming Interface)——API,實現電腦軟體之間的相互連訊。可通過Postman工具進行調取。
5.中繼資料
大資料在生命週期的不同分析過程中,可能因傳輸、加工和儲存而處於不同的狀態。這些改變自動觸發中繼資料的產生,後續可作為對結果進行溯源的依據,同時保證資料的準確、可靠性。因此需要一個架構來儲存中繼資料。
6.時效性
不同業務對時效性的要求不同。由此分為批處理、流處理兩種處理方式。
不同的處理方式有不同的平台、硬體支援(例:Storm-免費開源的分布式流處理計算系統,Hadoop-免費開源的分布式批處理計算系統)。
7.硬體效能
由於資料量大,資料查詢和傳輸時間可能過長,因此需對相關硬體設施進行升級。
8.資料管理架構
在將資料傳入企業進行處理、儲存、分析、清除、儲存時,同時制定監視、構建、儲存和保護資料的流程和方針,有助於解決資料複雜性等問題。
資料管理架構還考慮以下內容:
- 管理各種格式的大量資料;
- 持續培訓和管理必要的統計模型,以便對非結構化資料和分析進行預先處理;
- 為外部資料設定有關其保留和使用的策略和合規性制度;
- 定義資料歸檔和清除策略;
- 建立如何跨各種系統複製資料的策略;
- 設定資料加密策略。
9.建立反饋迴圈機制
考慮建立適當的反饋迴圈機制,以最佳化分析步驟,獲得更準確的分析結果。
10.儲存、計算環境
提供了多個資料存放區選項,比如雲、關係型資料庫、非關係型資料庫、分布式檔案儲存體 (DFS)等。
但一般大資料環境都會全部/部分採用雲端式的託管。
當所有前期準備已做好時,即可著手開始解決實際業務。
針對具體項目,由於大資料與傳統資料的差異,大資料分析具有多樣性的需求,因此其具有獨特的生命週期,可分為9個階段:
圖1 大資料分析的生命週期
1.案例評估:
“SMART”化 + 判斷是否為大資料問題(依據5V特徵) + 評估預算和收益。
- Specific(具體的)——明確業務的理由、動因、目標;
- Measurable(可衡量的)——制定KPI
- Attainable(可實現的)——分析可用資源;
- Relevant(相關的)——分析潛在威脅;
- Timely(及時的)——能否按期實現。
2.資料標識:
儘可能找到不同類型的相關資料集,試圖從中發現隱藏資訊。
3.資料擷取、過濾
對擷取的資料進行歸類,並過濾“腐壞”資料,過濾前對資料進行備份、壓縮。
“腐壞資料”包括:遺失/無意義值/空值等非結構或不相互關聯類型。
4.資料提取
查詢提取出分析所需資料。同時,根據分析類型和大資料解決方案能力,將資料修改為需要的格式。
目前主要的挑戰是將非結構化資料格式(XML、Json等)轉化為便於分析的資料格式。
5.驗證、清洗
通過冗餘資料集,整合驗證欄位、填充缺失資料、移除已知的無效資料,以此檢驗具有關聯的資料集。(看似無效的資料可能蘊含某種隱藏規律,例:離群值可用於研究風險)
批處理的資料驗證清洗過程在離線ELT系統中進行,流處理在複雜的記憶體中進行。
6.Data Integration與表示
將不同來源、格式的資料,依邏輯上或物理上進行整合,並通過一個視圖(二維表等)表示出來的過程。同時,對部分整合資料進行儲存,以備後續資料分析使用。
Data Integration包括兩個層次——形式上的Data Integration、語義上的Data Integration。
- 形式上的Data Integration:不同的作業系統、資料庫和程式設計語言對資料的基本類型所做的不同的定義,導致資料有不同的表示和儲存方式、不同系統間直接互相引用資料將產生不正確的結果。因此,需對資料的形式進行整合,採用轉換規則,最終建立具有統一標準結構的資料倉儲。
- 語義上的Data Integration:不同資料集中,表示同樣內容的資料有不同的值,因此要求被整合的資料中語義一致的部分對齊,從而能被系統所處理。這部分工作可以人工完成,也可以機器輔助人工完成,但是在目前的技術水平還不支援完全由機器完成。
7.資料分析
通過不同的分析方法,試圖從資料中提取業務洞察。
資料分析方法可分為:描述性分析、驗證性分析(假設→檢驗)、探索性分析(歸納法)。
同時建立適當的迭代方式,重複多次分析,以提高分析出可靠結果的可能性。
8.資料視覺效果
針對不同使用情境,使用不同的可視化技術,將分析結果通過圖形進行展示。以便於專業分析人員與使用者進行交流,同時使使用者發現潛在答案成為可能。
9.分析結果的應用
流量分析層的輸出結果,使用者可能是可視化應用程式、人(決策者)或某項商務程序。
當已經決定構建 新的/更新現有的 大資料解決方案,下一步是識別大資料解決方案所需的組件,主要可從以下兩個視角來考慮。
1.大資料解決方案的邏輯層:
邏輯層提供了一種組織相關組件的方式,其中不同的組件執行不同的功能。
這些層只是邏輯層,並不意味著支援每層的功能獨立運作,相反各層之間聯絡緊密,資料在各層之間流動。
大資料解決方案通常由以下邏輯層組成:
2.垂直層:
影響邏輯層中所有組件的各方面都包含在垂直層中,垂直層包括以下幾層:
邏輯層和垂直層的組件及關係參考。
圖2 邏輯層和垂直層的組件
大資料導論(3)——大資料解決方案的採用及規劃考慮