BI—開啟商業智慧之門

來源:互聯網
上載者:User

BI—開啟商業智慧之門

一個BI系統為了滿足企業管理者的要求,從浩如煙海的資料中找出其關心的資料,必須要做到以下幾步:
  1)為了整合各種格式的資料,清除原有資料中的錯誤記錄——資料預先處理的要求。
  2)對預先處理過資料,應該統一集中起來——中繼資料(Meta
Data)、資料倉儲(Data
Warehouse)的要求;
  3)最後,對於集中起來的龐大的資料集,還應進行相應的專業統計,從中發掘出對企業決策有價值的新的機會——OLAP(聯機事務分析)和資料採礦(Data
Mining)的要求。
  所以,一個典型的BI體系架構應該包含這3步所涉及的相關要求。

圖 3 BI的體系架構
  整個體系架構中包括:終端使用者查詢和報告工具、OLAP工具、資料採礦(Data
Mining)軟體、資料倉儲(Data Warehouse)和資料集市(Data Mart)產品、線上分析處理 (OLAP)
等工具。
  1)、終端使用者查詢和報告工具。
  專門用來支援初級使用者的未經處理資料訪問,不包括適應於專業人士的成品報告產生工具。

  2)、資料預先處理(STL-資料幫浦、轉換、裝載)
  從許多來自不同的企業運作系統的資料中提取出有用的資料並進行清理,以保證資料的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合并到一個企業級的資料倉儲裡,從而得到企業資料的一個全域視圖。
  3)、OLAP工具。
  提供多維資料管理環境,其典型的應用是對商業問題的建模與商業資料分析。OLAP也被稱為多維分析。

  4)、資料採礦(Data Mining)軟體。
  使用諸如神經網路、規則歸納等技術,用來探索資料之間的關係,做出基於資料的推斷。

  5)、資料倉儲(Data Warehouse)和資料集市(Data
Mart)產品。
  包括資料轉換、管理和存取等方面的預配置軟體,通常還包括一些業務模型,如財務分析模型。
  6)、線上分析處理 (OLAP)

  OLAP是使分析人員、管理員或執行人員能夠從多角度對資訊進行快速、一致、互動地存取,從而獲得對資料的更深入瞭解的一類軟體技術。
  其中核心技術在於資料預先處理、資料倉儲的建立(DW)、資料採礦(DM)和線上分析處理(OLAP)三個部分。接下來,我們對這幾個核心部分進行詳細說明:

資料預先處理:
  當早期大型的線上交易處理系統(OLTP)問世後不久,就出現了一種用於“抽取”處理的簡單程式,其作用是搜尋整個檔案和資料庫,使用某些標準選擇合乎要求的資料,將其複製拷貝出來,用於總體分析。因為這樣做不會影響正在使用的線上交易處理系統,降低其效能,同時,使用者可以自行控制抽取出來的資料。但是,現在情況發生了巨大的變化,企業同時採用了多個線上交易處理系統,而這些系統之間的資料定義格式不盡相同,即使採用同一軟體廠商提供的不同軟體產品,或者僅僅是產品版本不同,之間的資料定義格式也有少許差距。由此,我們必須先定義一個統一的資料格式,然後把各個來源的資料按新的統一的格式進行轉換,然後集中裝載入資料倉儲中。
  其中,尤其要注意的一點時,並不是各個來源的不同格式的所有資料都能被新的統一格式包容,我們也不應強求非要把所有資料來源的資料全部集中起來。Why?原因很多。有可能原來錄入的資料中,少量的記錄使用了錯誤的資料,這類資料如果無法校正,應該被捨去。某些資料記錄是非結構化的,很難將其轉化成新定義的統一格式,而且從中抽取資訊必須讀取整個檔案,效率極低,如大容量的位元據檔案,多媒體檔案等,這類資料如果對企業決策不大,可以捨去。
  目前已有一部分軟體廠商開發出專門的ETL工具,其中包括:
  Ardent
DataStage
  Evolutionary Technologies,Inc. (ETI) Extract  
  Information
Powermart  
  Sagent Solution  
  SAS Institute  
  Oracle Warehouse
Builder  
  MSSQL Server2000 DTS

資料倉儲:
  資料倉儲概念是由號稱“資料倉儲之父”William
H.Inmon在上世紀80年代中期撰寫的《建立資料倉儲》一書中首次提出,“資料倉儲是一個面向主題的、整合的、非易失性的,隨時間變化的用來支援管理員決策的資料集合”。
  面向主題是資料倉儲第一個顯著特點,就是指在資料倉儲中,資料按照不同的主題進行組織,每一個主題中的資料都是從各操作資料庫中抽取出來彙集而成,這些與該主題相關的所有曆史資料就形成了相應的主題域。
  資料倉儲的第二個顯著特點是整合。資料來源於不同的資料來源,通過相應的規則進行一致性轉換,最終整合為一體。
  資料倉儲的第三個特點是非易失性。一旦資料被載入到資料倉儲中,資料的值不會再發生變化,儘管運行系統中對資料進行增、刪、改等操作,但對這些資料的操作將會作為新的快照記錄到資料倉儲中,從而不會影響到已經進入到資料倉儲的資料。
  資料倉儲最後一個特點是它隨時間變化。資料倉儲中每一個資料都是在特定時間的記錄,每個記錄都有著相應的時間戳記。

圖 4 資料倉儲體系架構
  資料倉儲對外部資料源和操作型資料來源的中繼資料,按照資料倉儲模式設計要求進行歸類,並建成中繼資料庫,相對應的資料經過ETL後載入到資料倉儲中;當資訊客戶需要查詢資料時先通過資訊展現系統瞭解中繼資料或者直接瀏覽中繼資料庫,再發起資料查詢請求得到所需資料。
  一個典型的企業資料倉儲系統,通常包含資料來源、資料存放區與管理、資料的訪問三個部分。
圖 5 資料倉儲系統
  資料來源:是指企業操作型資料庫中的各種生產運營資料、辦公管理資料等內部資料和一些調查資料、市場資訊等來自外環境的資料總稱。這些資料是構建資料倉儲系統的基礎是整個系統的資料來源泉。
  資料的儲存與管理:資料倉儲的儲存主要由中繼資料的儲存及資料的儲存兩部分組成。中繼資料是關於資料的資料,其內容主要包括資料倉儲的資料字典、資料的定義、資料的抽取規則、資料的轉換規則、資料載入頻率等資訊。各操作資料庫中的資料按照中繼資料庫中定義的規則,經過抽取、清理、轉換、整合,按照主題重新組織,依照相應的儲存結構進行儲存。也可以面嚮應用建立一些資料集市,資料集市可以看作是資料倉儲的一個子集,它含有較少的主題域且曆史時間更短資料量更少,一般只能為某個局部範圍內的管理員服務,因此也稱之為部門級資料倉儲。
  資料的訪問:由OLAP(線上分析處理)、資料採礦、統計報表、即席查詢等幾部分組成。例如OLAP:針對特定的分析主題,設計多種可能的觀察形式,設計相應的分析主題結構(即進行事實表和維表的設計),使管理決策人員在多維資料模型的基礎上進行快速、穩定和互動性的訪問,並進行各種複雜的分析和預測工作。按照儲存方式來分,OLAP可以分成MOLAP以及ROLAP等方式,MOLAP
(Multi-Dimension OLAP)將OLAP分析所需的資料存放在多維資料庫中。分析主題的資料可以形成一個或多個多維立方體。ROLAP
(Relational
OLAP)將OLAP分析所需的資料存放在關係型資料庫中。分析主題的資料以“事實表-維表”的星型模式組織。

資料採礦:
  資料採礦的定義非常模糊,對它的定義取決於定義者的觀點和背景。如下是一些DM文獻中的定義:
資料採礦是一個確定資料中有效,新的,可能有用的並且最終能被理解的模式的重要過程。

  資料採礦是一個從大型資料庫中提取以前未知的,可理解的,可執行檔資訊並用它來進行關鍵的商業決策的過程。
  資料採礦是用在知識發現過程,來辯識存在於資料中的未知關係和模式的一些方法。資料採礦是探索資料中有益模式的過程。
  資料採礦是我們為那些未知的提示模式而研究大型資料集的一個決策支援過程。
  雖然資料採礦的這些定義有點不可觸摸,但在目前它已經成為一種商業事業。如同在過去的曆次淘金熱中一樣,目標是`開發礦工`。利潤最大的是賣工具給礦工,而不是幹實際的開發。
  目前業內已有很多成熟的資料採礦方法論,為實際應用提供了理想的指導模型。其中,標準化的主要有三個:CRISP-DM;PMML;OLE
DB for DM。
  CRISP-DM(Cross-Industry Standard Process for Data
Mining)是目前公認的、較有影響的方法論之一。CRISP-DM強調,DM不單是資料的組織或者呈現,也不僅是資料分析和統計建模,而是一個從理解業務需求、尋求解決方案到接受實踐檢驗的完整過程。CRISP-DM將整個挖掘過程分為以下六個階段:商業理解(Business
Understanding),資料理解(Data Understanding),資料準備(Data
Preparation),建模(Modeling),評估(Evaluation)和發布(Deployment)。其架構圖如下:

圖 6  CRISP-DM模型架構圖
  從技術層來看,資料採礦技術可分為描述型資料採礦和預測型資料採礦兩種。描述型資料採礦包括資料總結、聚類及關聯分析等。預測型資料採礦包括分類、迴歸及時間序列分析等。

  1、資料總結:繼承於資料分析中的統計分析。資料總結目的是對資料進行濃縮,給出它的緊湊描述。傳統統計方法如求和值、平均值、方差值等都是有效方法。另外還可以用長條圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
  2、聚類:是把整個資料庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的資料盡量相似。這種方法通常用於客戶細分。在開始細分之前不知道要把使用者分成幾類,因此通過群集可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。
  3、關聯分析:是尋找資料庫中值的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一個事件中出現的不同項的相關性;序列模式與此類似,尋找的是事件之間時間上的相關性,如對股票漲跌的分析等。
  4、分類:目的是構造一個分類函數或分類模型(也常常稱作分類器),該模型能把資料庫中的資料項目映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:(
v1, v2, ...,vn;c
),其中vi表示欄位值,c表示類別。
  5、迴歸:是通過具有已知值的變數來預測其它變數的值。一般情況下,迴歸採用的是線性迴歸、非線性迴歸這樣的標準統計技術。一般同一個模型既可用於迴歸也可用於分類。常見的演算法有羅吉斯迴歸、決策樹、神經網路等。
  6、時間序列:時間序列是用變數過去的值來預測未來的值。
  資料採礦(Data
Mining)軟體。使用諸如神經網路、規則歸納等技術,用來探索資料之間的關係,做出基於資料的推斷。

圖 7 資料採礦系統
  以下是一些當前的資料採礦產品:
  IBM: Intelligent Miner 智能礦工
  Tandem:
Relational Data Miner 關係資料礦工
  AngossSoftware: KnowledgeSEEDER
知識搜尋者
  Thinking Machines Corporation: DarwinTM
  NeoVista Software:
ASIC
  ISL Decision Systems,Inc.: Clementine
  DataMind Corporation:
DataMind Data Cruncher
  Silicon Graphics: MineSet
  California
Scientific Software: BrainMaker
  WizSoft Corporation: WizWhy
  Lockheed
Corporation: Recon
  SAS Corporation: SAS Enterprise Miner

線上分析處理(OLAP):
  OLAP的概念最早是由關聯式資料庫之父E.F.Codd於1993年提出的,他同時提出了關於OLAP的12條準則。  OLAP的提出引起了很大的反響,OLAP作為一類產品同聯機交易處理
(OLTP) 明顯區分開來。
  當今的資料處理大致可以分成兩大類:聯機交易處理OLTP(On-Line Transaction
Processing)、線上分析處理OLAP(On-Line Analytical
Processing)。OLTP是傳統的關係型資料庫的主要應用,主要是基本的、日常的交易處理,例如銀行交易。OLAP是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。
  OLAP是使分析人員、管理員或執行人員能夠從多角度對資訊進行快速、一致、互動地存取,從而獲得對資料的更深入瞭解的一類軟體技術。OLAP的目標是滿足決策支援或者滿足在多維環境下特定的查詢和報表需求,它的技術核心是"維"這個概念。
  “維”是人們觀察客觀世界的角度,是一種高層次的類型劃分。“維”一般包含著層次關係,這種層次關係有時會相當複雜。通過把一個實體的多項重要的屬性定義為多個維(DImension),使使用者能對不同維上的資料進行比較。因此OLAP也可以說是多維資料分析工具的集合。
  OLAP的基本多維分析操作有切入(Roll
Up和Drill Down)、切片(Slice)和切塊(Dice)、以及旋轉(Pivot)、Drill Across、Drill
Through等。
  切入是改變維的層次,變換分析的粒度。它包括向上切入(Roll Up)和向下切入(Drill Down)。Roll
Up是在某一維上將低層次的細節資料概括到高層次的摘要資料,或者減少維數;而Drill Down則相反,它從摘要資料深入到細節資料進行觀察或增加新維。

  切片和切塊是在一部分維上選定值後,關心度量資料在剩餘維上的分布。如果剩餘的維只有兩個,則是切片;如果有三個,則是切塊。

  旋轉是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。

  OLAP有多種實現方法,根據儲存資料的方式不同可以分為ROLAP、MOLAP、HOLAP。

  ROLAP表示基於關聯式資料庫的OLAP實現(Relational
OLAP)。以關聯式資料庫為核心,以關係型結構進行多維資料的表示和儲存。ROLAP將多維資料庫的多維度結構劃分為兩類表:一類是事實表,用來儲存資料和維關鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述資訊。維表和事實表通過主關鍵字和外關鍵字聯絡在一起,形成了“星型模式”。對於層次複雜的維,為避免冗餘資料佔用過大的儲存空間,可以使用多個表來描述,這種星型模式的擴充稱為“雪花模式”。
  MOLAP表示基於多維資料群組織的OLAP實現(Multidimensional
OLAP)。以多維資料群組織方式為核心,也就是說,MOLAP使用多維陣列儲存資料。多維資料在儲存中將形成“立方塊(Cube)”的結構,在MOLAP中對“立方塊”的“旋轉”、“切塊”、“切片”是產生多維資料報表的主要技術。
  HOLAP表示基於混合資料群組織的OLAP實現(Hybrid
OLAP)。如低層是關係型的,高層是多維矩陣型的。這種方式具有更好的靈活性。
  還有其他的一些實現OLAP的方法,如提供一個專用的SQL
Server,對某些儲存模式(如星型、雪片型)提供對SQL查詢的特殊支援。
  OLAP工具是針對特定問題的聯機資料訪問與分析。它通過多維的方式對資料進行分析、查詢和報表。維是人們觀察資料的特定角度。例如,一個企業在考慮產品的銷售情況時,通常從時間、地區和產品的不同角度來深入觀察產品的銷售情況。這裡的時間、地區和產品就是維。而這些維的不同組合和所考察的度量指標構成的多維陣列則是OLAP分析的基礎,可形式化表示為(維1,維2,……,維n,度量指標),如(地區、時間、產品、銷售額)。多維分析是指對以多維形式組織起來的資料採取切片(Slice)、切塊(Dice)、切入(Drill
Down和Roll
Up)、旋轉(Pivot)等各種分析動作,以求剖析資料,使使用者能從多個角度、多側面地觀察資料庫中的資料,從而深入理解包含在資料中的資訊。
  根據綜合性資料的組織方式的不同,目前常見的OLAP主要有基於多維資料庫的MOLAP及基於關聯式資料庫的ROLAP兩種。MOLAP是以多維的方式組織和儲存資料,ROLAP則利用現有的關聯式資料庫技術來類比多維資料。在資料倉儲應用中,OLAP應用一般是資料倉儲應用的前端工具,同時OLAP工具還可以同資料採礦工具、統計分析工具配合使用,增強決策分析功能。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.