標籤:style blog http color 使用 os io strong
大資料分析指南
TMF Frameworx最佳實務
Unleashing Business Value in Big Data
前言
此文節選自TMF Big Data Analytics Guidebook。
TMF文檔著作權資訊
Copyright © TeleManagement Forum 2013. All Rights Reserved.
This document and translations of it may be copied and furnished to others, and derivative works that comment on or otherwise explain it or assist in its implementation may be prepared, copied, published, and distributed, in whole or in part, without restriction of any kind, provided that the above copyright notice and this section are included on all such copies and derivative works. However, this document itself may not be modified in any way, including by removing the copyright notice or references to TM FORUM, except as needed for the purpose of developing any document or deliverable produced by a TM FORUM Collaboration Project Team (in which case the rules applicable to copyrights, as set forth in the TM FORUM IPR Policy, must be followed) or as required to translate it into languages other than English.
面對許多不斷湧現的大資料分析技術,CSP需要一個清晰的參考模型,以方便理解不同的大資料分析技術和合理定義流程,從而為特定的業務用例選擇正確的技術架構和路線。
為了滿足以上需求,本指南提供了大資料分析的參考用例、可重用構件和參考實現的架構,協助CSP通過大資料分析技術獲得商業價值。
本指南包括以下內容(目前標灰的內容尚未介紹,後續逐步更新):
1、 大資料和大資料分析的基本概念和技術
1.1 大資料
1.2 大資料分析
1.3 大資料分析技術
2、 參考模型:大資料分析解決方案
2.1 概述
2.2 資料裝載
2.3 資料管理
2.4 資料分析
2.5 資料存放區
2.6 資料治理
2.7 資料處理
3、 大資料分析的業務價值路線圖
4、 大資料分析用例
5、 大資料分析構件
1、大資料和大資料分析的基本概念和技術1.1、大資料
對於“大資料”的定義以及它與“普通”資料的區別,許多標準組織、諮詢公司和貿易集團都進行了嘗試,得出的結論略微不同,因為所有觀點都採用了大資料的特徵(3V、4V等等)對其描述,但沒有更多地涉及定義本身。截至本指南發布時,3V模型(Volume、Velocity、Variety)仍是大資料最流行的定義。
“大資料”一種較新的定義如下:
大資料是能夠採用歸納統計的資料,並且其資料量允許演繹和預測未來一定時期內的資料行為。
原文如下:
A newer model (Big Data Paris, 2013) looks at Big Data as utilizing inductive statistics with data, the volume of which allows inferring laws and predicting to a certain extent future behaviors of the data.
以上定義來源於:http://www.andsi.fr/tag/dsi-big-data/
傳統的商業智慧採用的是描述統計。
1.2、大資料分析
不管哪一種定義,大資料的價值在於分析結果、預測和執行。TMF大資料分析項目關注的不是大資料本身,而是大資料分析技術和方法。
大資料分析要求高效能的海量資料處理能力和合理的回應時間。為了滿足這些條件,一些非傳統的技術在過去10年間不斷湧現出來,並擅長於share nothing、大規模並行、水平擴充。
1.3、大資料分析技術
MapReduce架構和Hadoop
- MapReduce編程模型
- HDFS(Distributed File System)
- HBase(分散式資料庫)
- Pig、Hive(資料訪問)
- Impala(即時即席查詢)
NoSQL儲存
4種NoSQL資料庫
- KVStore for Redis(如亞馬遜Dynamo、Voldemold)
- 列式儲存(如Cassendra、HBase)
- 檔案儲存體(如MongoDB)
- 圖儲存(如neo4j、Allegro graph)
基於HDFS的即時查詢
如Impala
搜尋
2、參考模型
參考模型的目的是為了提供巨量資料分析平台的功能組件。通過不同功能組件的職責劃分,可以得出明確的角色和職責視圖,從而在大資料分析領域達成共識。
2.1、概述
是大資料分析參考模型,包括巨量資料生態系統概覽及其平台功能層次。根據資料相關性和資料密度,所有功能分層向其它功能分層和第三方應用提供外部和內部API。
說明:
1、 參考模型是為了滿足任意一個大資料用例需求的總體功能,根據每個用例的具體情況,可能只需要涉及參考模型的功能子集。
2、 參考模型中的分層是相似功能的抽象分組,並非某個大資料平台的構件,因此,各個分層功能向某個大資料平台的實際映射取決於廠傢具體實現。
3、 參考模型中的分層不具備層級和順序的特性,如ISO的OSI 七層模型和TCP/IP四層模型那樣。除了資料裝載層從外部資料源接受資料外,其它層之間的順序和組合根據具體情況可以改變。
4、 資料存放區可以視作為大資料平台的構件,除了儲存未經處理資料和處理後的資料外,還可以用於不同層之間的資料流轉。
5、 保護消費者隱私的法律法規常常削弱了CSP利用資料賺錢的能力,也減少了在資料價值鏈中建立合作關係的可能。在“資料治理”中的隱私、安全和監管功能通過資料隱私保護技術用於解決以上問題。大資料分析應用可以視為參考模型中各分層的組合。
6、 “批處理”指的是離線處理(或按計劃處理),它根據需求開始執行,並且假定存在大量的記憶體空間。發生外部請求後,批處理在有限的時間內能夠處理完有限的資料集。在批處理模式下,信令流與資料流是分離的,而在流處理模式下,信令流是包含在資料流中的。流處理模式指的是線上處理,它根據需求不斷地處理資料流。流處理模式可以與複雜事件處理技術有關,也可以與即時學習和即時預測等技術有關。
7、 參考模型可以視為支援商務智能的PaaS,資料管理層和資料分析層涵蓋了商務智能的所有功能,並能夠被外部應用或者使用者介面使用,使用方式可以基於本地或者雲。
2.2資料裝載整合
建立不同系統之間的串連,用於資料的流轉。
資料匯入
從外部資料源匯入資料至大資料平台,資料可以被打上標籤,以指明來自於哪個資料來源。
資料格式化
將來自於不同資料來源的資料統一格式。例如,來自於2G、3G和4G不同介面的IMSI可能採用不同的編碼格式,因此,該功能在資料流轉到其它層之前統一格式。
2.3資料管理轉換
將未經處理資料映射到資料模型中,使之成為有意義和有用的資料。典型的資料轉換包括:
- 比較
- 日期和時間
- 邏輯
- 公式
- 統計
- 文本
- 三角法
- 編碼
- 列表管理
- URL管理
關聯
將來自於各種資料來源且表示相同業務實體的資料關聯起來。例如,將來自CDR中MSISDN與來自CRM的使用者編號關聯起來(兩者表示了同一個業務實體——使用者),能夠提供關於該使用者更加豐富的資訊。
豐富化
將指向同一業務實體的多個資料來源組合起來(如使用者),從而形成這個實體的資訊全視圖。有些情況下,資料來源來自於CSP的多個資料庫,有些情況下,一些資料來自於大資料分析結果。
例如,基於使用者的瀏覽曆史和位置,可以較為準確地預測其性別、年齡、教育程度和收入等。
資料操作
資料操作包括:
- 合并
- 交集
- 排序
- 過濾
- 壓縮
- 去重/複製
- 分組
- 匯總
資料品質保障
資料品質保障包括:
例如,帶有校正值錯誤的資料寫入日誌後丟棄。
2.4資料分析
該層通過批處理模式和流處理模式支援大資料分析,包括指標計算、資料建模、複雜事件處理和機器學習。
資料分析層依賴於許多技術,包括:
- 事件模式檢測
- 即時學習
- 事件抽象
- 事件層級建模
- 事件關係檢測(因果關係、組合關係、時序關係)
- 基於事件驅動的處理
- 基於觸發器的動作執行
資料處理層的關鍵功能包括:
描述性建模、預測性建模、指導性建模
使用機器學習、資料採礦演算法進行描述性建模、預測性建模、指導性建模(解釋過去、預測未來、推薦最佳對策),包括:
- 分類分析
- 群集
- 模式挖掘
- 推薦、協同過濾
- 統計關係學習
- 文本、語音和視頻分析
複雜事件處理
大部分複雜事件處理方案和概念可以分為以下兩大類:
對進入系統的事件數目據執行線上演算法。例如,對進入系統的事件數目據不斷地進行平均值計算。
重點關注事件組合檢測(或稱為事件模式檢測)。例如,檢測符合特定序列的事件。
複雜事件處理為那些需要即時處理的大資料分析情境提供了可能性,以線上的方式實現了流式資料處理、事件關聯和KPI計算等功能。基於使用者提供的商務規則,複雜事件處理為外部系統的後續動作觸發了警示。
在大資料環境下,複雜事件處理可以由能夠進行大規模並行計算的複雜事件處理器實現,如Twitter的開源項目Storm。
基於觸發器的動作執行
大資料分析產生的結果可以觸發警示和執行動作。
- 警示:發送警示至使用者以便後續決策(機器>人)。
- 觸發器:觸發警示至其它系統,並自動執行相應的動作(機器>機器)。
例如,網路效能監控系統使用複雜事件處理技術檢測網元警示,當警示數量或嚴重程度超過門限後,系統向維護人員產生一個嚴重警示,並觸發策略的改變(將網路流量重新路由到其它網元)。
指標計算
計算相關的業務指標,例如TMF業務指標(包括架構指標、客戶體驗管理指標、平衡積分卡等),以及其它任意指標。
報表產生
資料報表可以即時產生,或者按照天、周、月周期產生,或者根據需要即席產生。報表用於將大資料分析結果進行可視化展現,目前有很多高效的視覺化檢視產品。