什麼是BI(Business Intelligence

來源:互聯網
上載者:User

原文出處:http://www.cnblogs.com/jiesin/archive/2008/06/23/1227694.html

談談對BI的理解,從BI的定義、基本技術、專業名詞、執行個體應用及擴充等方面進行重新描述,鞏固對BI的理解。

一、BI的定義

BI是Business Intelligence的英文縮寫,中文解釋為商務智能,用來協助企業更好地利用資料提高決策品質的技術集合,是從大量的資料中切入資訊與知識的過程。簡單講就是業務、資料、資料價值應用的過程。用圖解的方式可以理解為:

 

                                                                                             圖(1)

這樣不難看出,傳統的交易系統完成的是Business到Data的過程,而BI要做的事情是在Data的基礎上,讓Data產生價值,這個產生價值的過程就是Business Intelligence analyse的過程。
如何?Business Intelligence analyse的過程,從技術角度來說,是一個複雜的技術集合,它包含ETL、DW、OLAP、DM等多環節,基本過程可用描述。

                                                                                                圖(2)

流程,簡單的說就是把交易系統已經發生過的資料,通過ETL工具抽取到主題明確的資料倉儲中,OLAP後產生Cube或報表,透過Portal展現給使用者,使用者利用這些經過分類(Classification)、聚集(Clustering)、描述和可視化(Description and Visualization)的資料,支援業務決策。

說明:
BI不能產生決策,而是利用BI過程處理後的資料來支援決策。哪麼BI所謂的智能到底是什麼呢?(理清這個概念,有助於對BI的應用。)BI最終展現給使用者的資訊就是報表或圖視,但它不同於傳統的靜態報表或圖視,它顛覆了傳統報表或圖視的提供與閱讀的方式,產生的資料集合就象玩具“魔方”一樣,可以任意快速的旋轉組合報表或圖視,有力的保障了使用者分析資料時操作的簡單性、報表或圖視直觀性及思維的連慣性。

我想這是大家熱衷於BI的根本原因。

二、BI的誕生

隨著IT技術的進步,傳統的業務交易系統有了長足的發展,已經實現了商務資訊化,每一筆業務資料都記錄在資料庫中,星轉鬥移,累積了以TB為計量單位的業務資料記錄。也許你會問:這麼多資料,佔用了很多存放裝置,耗費儲存成本,卻又不經常訪問,留著它有什麼用處?可以給你肯定的回答,留著這些曆史資料意義巨大,挖掘業務的規律、支援決策。

典型的案例有“尿片和啤酒”的故事, 尿片和啤酒本來是兩樣不相干的東西,可是,有人就發現,星期五在超市裡購物的,購買尿片的年輕父親中有30%~40%的人同時購買啤酒。原來,星期五年輕的父親購買尿片時,還會為自己捎帶買啤酒,因為,星期五是各家電視台轉播橄欖球賽的時間,於是,超市老闆們就把尿片和啤酒搭售方案獲得了巨大成功。
這個故事成了一個利用資料採礦商業價值最大化的神話。 由此看來,非常不關聯的兩樣東西,通過海量的資訊資料處理,可以挖掘出它們之間潛在的關聯,將這種關聯商業化,就會得到意想不到的新業務或新的商業模式。
到底該怎樣把這些佔據大量儲存空間的資料的價值挖掘出來,讓這些資料從成本的消耗者變成利潤的促進者呢?新的資料分析技術由此誕生了,完成了“資料”到“資料價值”轉換的環節,同時給這項技術起了一個響亮而又神密的名字“BI”(Business Intelligence)

三、基本技術
BI(Business Intelligence) 是一種運用了資料倉儲、線上分析和資料採礦等技術來處理和分析資料的嶄新技術,目的是為企業決策者提供決策支援。這似乎是BI的官方定義,也是廣大BI玩家一成不變的宗旨,哪麼BI技術涉及了哪些方面呢?從圖(2)中,我們不難看出其核心技術中ETL、DW及OLAP。或者說是“資料處理技術”與“資料展現技術”更加容易理解。

為什麼要在操作型資料庫和 OLAP 之間加一層“資料倉儲”呢?
說一千道一萬都電腦資源與效能惹的禍,操作型資料庫以快速響應業務為主要目標,而OLAP的時候要佔用大量的硬體資源,在OLAP的時候,業務操作很難快速響應,無法保證業務的順利進行,從業務、資料、資料的價值的邏輯來看,沒有業務就談不上OLAP;零星分散的資料一般存在有多個應用,對應多個業務操作型資料庫,訪問效能極其低下。綜合上述資源與效能的問題,最高效的方法就是將資料先整合到資料倉儲中,而 由OLAP應用統一從資料倉儲裡取數,以解決快速響應業務與OLAP的矛盾。
但是,多了這麼一層,不管ROLAP還是MOLAP都無法查看即時資料,這並不影響BI的應用,90%的BI應用都不要求即時性,允許資料有滯後,這是決策支援系統的應用特點,這個滯後區間就是資料幫浦工具工作及OLAP的時間。

四、資料處理

(1)ODS,(Operational Data Store)是資料倉儲體繫結構中的一個可選部分,ODS具備資料倉儲的部分特徵和OLTP系統的部分特徵,它是“面向主題的、整合的、當前或接近當前的、不斷變化的”資料。

一般在帶有ODS的系統體繫結構中,ODS都設計都有如下特點:
1) 在業務系統和資料倉儲之間的資料過渡離層。
如果業務資料來源比較複雜,一般採用構造ODS的方法來實現收集當前需要處理的資料。如下述資料來源:
a、業務資料庫種類繁多。業務交易系統使用了不同種的資料庫,如DB2、Informix、Oracle、SQL server、文本等。
b、不同的應用系統、不同的地理位置。
c、訂閱資料來源。
d、批量還原非傳統資料庫資料。
... ...等等。用於存放從業務系統直接抽取出來的資料,這些資料從資料結構、資料之間的邏輯關係上都與業務系統基本保持一致。
2) 儲存當前或接近當前的細節資料,以供查詢或ETL檢錯使用。
3) 資料存放區周期性。ODS中儲存的資料都是臨時的,每次ETL之前都要清空ODS中儲存的資料。

(2)ETL,(Extract Transform Load)操作型業務資料庫(DB)到資料倉儲(DW)的過程稱之為ETL,它實現資料的抽取,轉換及裝載工作。

抽取:將資料從各種原始的業務系統中讀取出來。
轉換:按照預先設計好的規則將抽取得資料進行轉換、清洗,以及處理一些冗餘、歧義的資料,使本來異構的資料格式能統一起來。
裝載:將轉換完的資料按計劃增量或全部的匯入到資料倉儲中。
在技術上主要涉及增量、轉換、調度和監控等幾個方面的處理。

現在列舉一個簡單的執行個體,用來說明ETL。
如下表所示,是來自於四個地區的Item銷售記錄。四個地區依次是

                                                                                                  圖(3)

不管使用什麼方法或工具,使上述四表的資料結構變成下表所描述的結構,並填充資料,這個過程就是一個ETL的過程。

 

                                                                                                    圖(4)

(3)DW, (Data Warehouse) 資料倉儲的官方定義是一個面向主題的(Subject Oriented)、整合的(Integrate)、相對穩定的(Non-Volatile)、反映曆史變化(Time Variant)的資料集合,用於支援管理決策。

資料倉儲的特點:
1)、面向主題。
2)、整合。
3)、非易失。
4)、時間軸。

資料庫與資料倉儲的區別如下所述:

 

                                                                                                 圖(5)

(4)OLAP,(On-Line Analytical Processing)即線上分析處理,是 BI的一種全新的資料封裝方式,直接產物是報表或Cube,是使分析人員、管理員或執行人員能夠從多角度對資訊進行快速、一致、互動地存取,從而獲得對資料的更深入瞭解的一類軟體技術。

說到OLAP,不由的想起OLTP(聯機交易處理系統),現在來比較一下OLTP與OLAP的區別,如下所述:

 

                                                                                              圖(6)

 

太理論化的東西還是少說,來看看資料表中資料是如何在立方體中表示的。
單獨察看一個Location的銷售資料,使用慣用的2-D平面資料表,完全可以滿足所有的需求,如所示:

                                                                                                    圖(7)

但,要是想從更多的Location的角度去分析資料,可以在2-D的平面資料的基礎上增加一個維,來表示Location的變化,如所示:

                                                                                                   圖(8)

概念上講,也可以以3-D的資料立方體的形式表示這些資料,如所示:

 

                                                                                                   圖(9)

假定再增加一個維,用來表示製造商的變化,哪應該如何表示資料了呢?我們按照上面的思路,可以表示成如所示的資料結構,並稱之為4-D立方體。

                                                                                                  圖(10)

以此類推,可以把N-D資料立方體表示為(N-1)-D資料立方體的序列。這是OLAP的基本原理,至於其中使用了何種具體的演算法,來計算與管理每個“子方體”的,內容太多,不能再這裡囉嗦了...
說明:
資料立方本是對多維資料存放區的一種比喻,這種資料的實際實體儲存體不同於它的邏輯表示。它不限於3-D,而是N維的。

五、資料展現

資料查詢是最簡單的 BI 應用,輸出報表是BI最直接的產物,根據資料連線,加工過程及用途,應用模式大致可以分為四種:格式報表;線上分析;資料視覺效果;資料採礦。

1、格式報表:帶格式的資料集合,如:交叉表等。

2、線上分析:Cube合,如:Cube等。

3、資料視覺效果:資訊以儘可能多的形式展現出來,目的是使決策者通過圖形這種直觀的表現方式迅速獲得資訊中蘊藏的知識,如柱圖,儀錶盤等。

4、資料採礦:從大量的資料中,抽取出潛在的、有價值的知識(模型或規則)的過程。分析方法:

· 分類 (Classification)

· 估值(Estimation)

· 預言(Prediction)

· 相關性分組或關聯規則(Affinity grouping or association rules)

· 聚集(Clustering)

· 描述和可視化(Description and Visualization)

資料採礦號稱能通過曆史資料的分析,預測客戶的行為,而事實上,客戶自己可能都不明確自己下一步要作什麼。所以,資料採礦的結果,沒有人們想象中神秘,它不可能是完全正確的。客戶的行為是與社會環境相關連的,所以資料採礦本身也受社會背景的影響。

六、常用的BI 廠商和產品

ETL:Informatica, SQL Server Analysis Server

DW:IBM DB2,Oracle,Sybase IQ,NCR Teradata 等等;

OLAP: Cognos,Business Objects,MicroStrategy,Hyperion,IBM

Data Mining:IBM,SAS,SPSS

現在很多的資料庫供應商都開始綁定BI的開發組件到自己的資料庫產品中,他們都瞄準了這其中的肥肉,磨拳檫掌,各論長短。

七、BI在中國

中國擁有5000年的文化史,燦爛的檔案讓日常報表也非常具有凝聚力,交錯縱橫,裡外相嵌,格式詭異、規則古怪、資料集中而文名於世,讓無數報表工具折腰。BI概念是從歐美引進的,現有的工具也多是歐美國家提供,中國是世界上報表最複雜的國家,報表設計風格與這些國家有明顯的差別,BI工具製作的報表傾向於僅用一張報表說明一個問題,而中國的報表傾向於將儘可能多的問題集中在一張報表中,這種思路直接導致了BI工具應用難度的提升。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.