早在20世紀90年代末,商業智慧(Business Intelligence)技術就被一家電腦權威雜誌評選為未來幾年最具影響力的IT技術之一。雖然近幾年整個IT界不景氣,但與商業智慧相關的產品研發及應用卻方興未艾,且數以百計的IT企業不斷湧進這一新興領域,BI應用甚至成為了IT界又一全新“亮點”。究竟什麼是商業智慧技術?又有哪些技術支撐著如此具有前景的商業智慧應用?答案就在—
商業智慧技術並不是基礎技術或者產品技術,它是資料倉儲、線上分析處理OLAP(Online Analytical Processing)和資料採礦等相關技術走向商業應用後形成的一種應用技術。
商業智慧系統主要實現將原始業務資料轉換為企業決策資訊的過程。與一般的資訊系統不同,它在處理海量資料、資料分析和資訊展現等多個方面都具有突出效能。
商業智慧系統架構圖
商業智慧系統主要包括資料預先處理、建立資料倉儲、資料分析及資料展現四個主要階段。資料預先處理是整合企業未經處理資料的第一步,它包括資料的抽取、轉換和裝載三個過程。建立資料倉儲則是處理海量資料的基礎。資料分析是體現系統智能的關鍵,一般採用線上分析處理和資料採礦兩大技術。線上分析處理不僅進行資料匯總/聚集,同時還提供切片、切塊、下鑽、上卷和旋轉等資料分析功能,使用者可以方便地對海量資料進行多維分析。資料採礦的目標則是挖掘資料背後隱藏的知識,通過關聯分析、聚類和分類等方法建立分析模型,預測企業未來發展趨勢和將要面臨的問題。在海量資料和分析手段增多的情況下,資料展現則主要保障系統分析結果的可視化。一般認為資料倉儲、OLAP和資料採礦技術是商業智慧的三大組成部分。
資料倉儲:商業智慧的基礎
對於一個企業來說,最關鍵也最為重要的是,如何以一種有效方式逐步整理各個業務處理系統中積累下來的曆史資料,並通過靈活有效方式為各級業務人員提供統一的資訊視圖,從而在整個企業內實現真正的資訊共用。資料倉儲技術正好滿足了這一需求。資料倉儲是商業智慧系統的基礎,如果沒有資料倉儲,沒有企業資料的融合,資料分析就成為了無源之水。
資料倉儲主要有四個重要特徵:
1、資料倉儲是面向主題的。傳統的操作型系統是圍繞公司的應用進行組織。如對一個電信公司來說,應用問題可能是營業受理、專業計費和客戶服務等,而主題範圍可能是客戶、套餐、繳費和欠費等。
2、資料倉儲是整合的。資料倉儲實現資料由面嚮應用的操作型環境向面向分析的資料倉儲的整合。由於各個應用系統在編碼、命名習慣、實際屬性、屬性度量等方面不一致,當資料進入資料倉儲時,要採用某種方法來消除這些不一致性。
3、資料倉儲是非易失的。資料倉儲的資料通常是一起載入與訪問的,在資料倉儲環境中並不進行一般意義上的資料更新。
4、資料倉儲隨時間的變化性。資料倉儲中的資料隨時間變化的特性表現在三個方面:
1)資料倉儲中的資料時間期限要遠遠長於操作型系統中的資料時間期限。操作型系統的時間期限一般是6 0~9 0天,而資料倉儲中資料的時間期限通常是5~1 0年。
2)操作型資料庫含有“當前值”的資料,這些資料的準確性在訪問時是有效,同樣當前值的資料能被更新;而資料倉儲中的資料僅僅是一系列某一時刻產生的複雜的快照。
3)操作型資料的鍵碼結構可能包含也可能不包含時間元素,如年、月、日等;而資料倉儲的鍵碼結構總是包含時間元素。
OLAP:海量資料分析利器
對於TB級的海量資料,線上分析處理OLAP無疑是一種有力的資料分析工具。它可以讓管理者靈活地對海量資料進行瀏覽分析。利用多維的概念,OLAP提供了切片、切塊、下鑽、上卷和旋轉等多維度分析與跨維度分析功能。相對於普通的靜態報表,OLAP更能滿足決策者和分析人員對資料倉儲資料的分析。
區別於傳統的聯機交易處理 (OLTP)系統,OLAP有12條準則:
1、 OLAP模型必須提供多維概念視圖
2、 透明性準則
3、 存取能力推測
4、 穩定的報表能力
5、 客戶/伺服器體繫結構
6、 維的等同性準則
7、 動態疏鬆陣列處理準則
8、 多使用者支援能力準則
9、 非受限的跨維操作
10、直觀的資料操縱
11、靈活的報表產生
12、不受限的維與聚集層次
雖然隨著技術的發展,部分準則有所突破,但這些準則仍然是OLAP技術的基礎。
OLAP系統架構主要分為基於關聯式資料庫的ROLAP(Relational OLAP)、基於多維資料庫的MOLAP(Multidimensional OLAP)、基於混合資料群組織的HOLAP(Hybrid OLAP)三種。前兩種方式比較常見。ROLAP表示基於關聯式資料庫的OLAP實現。它以關聯式資料庫為核心,以關係型結構進行多維資料的表示和儲存。ROLAP將多維資料庫的多維度結構劃分為兩類表:一類是事實表,用來儲存資料和維關鍵字;另一類是維表,即對每個維至少使用一個表來存放維的層次、成員類別等維的描述資訊。MOLAP表示基於多維資料群組織的OLAP實現。它以多維資料群組織方式為核心,使用多維陣列儲存資料。MOLAP查詢方式採用索引搜尋與直接定址相結合的方式,比ROLAP的表索引搜尋和表串連方式速度要快得多。
資料採礦:洞察力之源
與展示企業曆史和現有資訊的靜態、動態報表及查詢等分析方法不同,資料採礦是從資料庫中智能地尋找模型,從海量資料中歸納出有用資訊。可以說通過商業智慧系統,企業獲得洞察力的主要手段就是資料採礦。
資料採礦(Data Mining)是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。
資料採礦技術可分為描述型資料採礦和預測型資料採礦兩種。描述型資料採礦包括資料總結、聚類及關聯分析等。預測型資料採礦包括分類、迴歸及時間序列分析等。
1、資料總結:繼承於資料分析中的統計分析。資料總結目的是對資料進行濃縮,給出它的緊湊描述。傳統統計方法如求和值、平均值、方差值等都是有效方法。另外還可以用長條圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
2、聚類:是把整個資料庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的資料盡量相似。這種方法通常用於客戶細分。在開始細分之前不知道要把使用者分成幾類,因此通過群集可以找出客戶特性相似的群體,如客戶消費特性相似或年齡特性相似等。在此基礎上可以制定一些針對不同客戶群體的營銷方案。
3、關聯分析:是尋找資料庫中值的相關性。兩種常用的技術是關聯規則和序列模式。關聯規則是尋找在同一個事件中出現的不同項的相關性;序列模式與此類似,尋找的是事件之間時間上的相關性,如對股票漲跌的分析等。
4、分類:目的是構造一個分類函數或分類模型(也常常稱作分類器),該模型能把資料庫中的資料項目映射到給定類別中的某一個。要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由有關欄位(又稱屬性或特徵)值組成的特徵向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:( v1, v2, ...,vn;c ),其中vi表示欄位值,c表示類別。
5、迴歸:是通過具有已知值的變數來預測其它變數的值。一般情況下,迴歸採用的是線性迴歸、非線性迴歸這樣的標準統計技術。一般同一個模型既可用於迴歸也可用於分類。常見的演算法有羅吉斯迴歸、決策樹、神經網路等。
6、時間序列:時間序列是用變數過去的值來預測未來的值。
資料採礦另一個重要方面是與之相關的方法論。一般的交易處理系統甚至一些只提供報表分析功能的簡單商業智慧系統,建成以後只需要少量的工程維護工作,而採用資料採礦技術的商業智慧系統往往有很大不同。因為資料採礦是一個商業理解、資料理解、建模、評估等一系列多次反覆、多次調整的過程,並且模型的應用也不是一成不變的,在適當的時候需要更新和重建。所以一般的商業智慧項目並不追求一次性工程建設,更倡導的是一種與企業業務緊密聯絡能夠提升企業競爭力的諮詢服務,而且熟悉業務和分析方法的分析人員在商業智慧系統的應用中起著至關重要的作用。從這一點也能看出為什麼說BI是企業MIS之後更高層次、更具戰略意義的應用。
誠然,對於資料採礦或者商業智慧也應有一個客觀的認識。從廣義上,資料採礦是在傳統資料分析方法基礎上,融合了資料庫、人工智慧等多方面技術形成的知識發現技術。它對企業的資訊分析必然產生積極的效果,對企業經營決策的輔助作用也是顯而易見。但是資料採礦只是一些技術和方法,並非萬能,而商業智慧系統更多的是為企業提供一個經營分析的環境和一些分析工具。如何切合企業經營實際,從海量的經營資料中挖掘出有助於企業市場競爭的知識,商業智慧系統本身體現並不多。因此,企業洞察力的真正來源是商業智慧系統以及資料採礦技術的成功應用和實踐。