標籤:des style color 使用 io 檔案 資料 for
以下內容僅為興趣愛好。
商務智能技術是將資料倉儲、線上分析處理(OLAP)和資料採礦等結合起來應用到商務工作中,從不同的資料來源收集資料,經過抽取(Extract)、轉換(Transform)和載入(Load),送入到資料倉儲或資料集市,然後使用合適的查詢與分析工具、資料採礦工具和線上分析處理工具對資訊進行處理,將資訊轉變成為輔助決策的知識,最後將知識呈現於使用者面前,以實現技術服務與決策的目的。
下面僅僅介紹商務智能的一些關鍵技術。
商務智能的四大關鍵技術:商務智能的支撐技術主要包括ETL(資料的提取、轉換與載入)技術和資料倉儲與資料集市技術、OLAP技術、資料採礦技術與資料的發布與表示技術。
(1)資料倉儲技術
實施BI首先要從企業內部和企業外部不同的資料來源,如客戶關係管理(CRM)、供應鏈管理(SCM)、企業資源規劃(ERP)系統以及其他應用系統等搜集有用的資料,進行轉換和合并,因此需要資料倉儲和資料集市技術的支援。
資料倉儲(Data Warehouse)是指從多個資料來源收集的資訊,以一種一致的儲存方式儲存所得到的資料集合。資料倉儲創始人之一W.H.Inmon的定義為:“資料倉儲是一個面向主題的、整合的、穩定的、包含曆史資料的資料集合,它用於支援管理中的決策制定過程”。在構造資料倉儲時,要經過資料的清洗、資料的抽取轉換、Data Integration和資料載入等過程。面向不同的需求,對資料進行清洗以保證資料的正確性,然後對資料進行抽取,轉換成資料倉儲所需形式,並實現載入到資料倉儲。
資料倉儲是一種語義上一致的資料存放區,充當決策支援資料模型的物理實現,並存放企業戰略決策所需資訊。資料倉儲的資料模型有星型模式、雪花模式。星型模式最為常見,有一個包含大批資料並且不含冗餘的中心表,每維一組小的附屬表。雪花模式中某些維表是正常化的,因而把資料進一步分解到附加的表中,模式圖形成了類似雪花的形狀。對資料倉儲的研究集中在Data Integration中資料模式的設計、資料清洗和資料轉換、匯入和更新方法等。
資料倉儲通常是企業級應用,因此涉及的範圍和投入的成本非常巨大,使一些企業無力承擔。因而,他們希望在最需要的關鍵部門建立一種適合自身應用的、自行定製的部門資料倉儲子集。正是這種需求使資料集市應運而生。資料集市( Data Mart) 是聚焦在選定的主題上的,是部門範圍的。根據資料的來源不同,資料集市分為獨立的和依賴的兩類。在獨立的資料集市中,資料來自一個或多個操作的系統或外部資訊提供者,或者來自在一個特定的部門或地區局部產生的資料。依賴的資料集市中的資料直接來自企業資料倉儲。
(2)線上分析處理技術(OLAP)
線上分析處理(Online Analytical Processing ,簡稱OLAP) 又稱多維分析,由EF Codd 在1994 年提出,它對資料倉儲中的資料進行多維分析和展現,是使分析人員、管理員或執行人員能夠從多種角度對從未經處理資料中轉化出來的、能夠真正為使用者所理解的、並真實反映企業維特性的資訊進行快速、一致、互動地存取,從而獲得對資料更深入瞭解的一類軟體技術。它的技術核心是“維”這個概念,因此OLAP也可以說是多維資料分析工具的集合。
進行OLAP分析的前提是已有建好的資料倉儲,之後即可利用OLAP 複雜的查詢能力、資料對比、資料幫浦和報表來進行探測式資料分析了。稱其為探測式資料分析,是因為使用者在選擇相關資料後,通過切片(按二維選擇資料)、切塊(按三維選擇資料)、上鑽(選擇更高一級的資料詳細資料以及資料檢視)、下鑽(展開同一級資料的詳細資料)、旋轉(獲得不同視圖的資料) 等操作,可以在不同的粒度上對資料進行分析嘗試,得到不同形式的知識和結果。線上分析處理研究主要集中在ROLAP(基於關聯式資料庫的OLAP) 的查詢最佳化技術和MOLAP(基於多維資料群組織的OLAP) 中減少儲存空間和提高系統效能的方法等。
(3)資料採礦技術
與OLAP 的探測式資料分析不同,資料採礦是按照預定的規則對資料庫和資料倉儲中已有的資料進行資訊開採、挖掘和分析,從中識別和抽取隱含的模式和有趣知識,為決策者提供決策依據。資料採礦的任務是從資料中發現模式。模式有很多種,按功能可分為兩大類:預測型( Predictive)模式和描述型(Descriptive)模式。
預測型模式是可以根據資料項目的值精確確定某種結果的模式。挖掘預測型模式所使用的資料也都是可以明確知道結果的。描述型模式是對資料中存在的規則做一種描述,或者根據資料的相似性把資料分組。描述型模式不能直接用於預測。在實際應用中,根據模式的實際作用,可細分為分類模式、迴歸模式、時間序列模式、聚類模式、關聯模式和序列模式6 種。其中包含的具體演算法有貨籃分析(Market Analysis)、聚類檢測(Clustering Detection)、神經網路(Neural Networks)、決策樹方法(Decision Trees)、遺傳演算法(Genetic Analysis)、串連分析(Link Analysis)、基於範例的推理(Case Based Reasoning)和粗集(RoughSet)以及各種統計模型。
OLAP 與資料採礦的區別和聯絡是:OLAP 側重於與使用者的互動、快速的響應速度及提供資料的多維視圖,而資料採礦則注重自動探索隱藏在資料中的模式和有用資訊,儘管允許使用者指導這一過程。OLAP 的分析結果可以給資料採礦提供分析資訊作為挖掘的依據,資料採礦可以拓展OLAP 分析的深度,可以發現OLAP 所不能發現的更為複雜、細緻的資訊。資料採礦的研究重點則偏向資料採礦演算法以及資料採礦技術在新的資料類型、應用環境中使用時所出現新問題的解決上, 如對各種非結構化資料的挖掘、資料採礦語言的標準化以及可視化資料採礦等。
(4)BI的表示和發布技術
為了使分析後的資料直觀、簡練地呈現在使用者面前,需要採用一定的形式表示和發布出來,通常採用的是一些查詢和報表工具。不過,目前越來越多的分析結果是以可視化的形式表現出來,這就需要採用資訊可視化技術。
所謂資訊可視化是指以圖形、映像、虛擬現實等易為人們所辨識的方式展現未經處理資料間的複雜關係、潛在資訊以及發展趨勢,以便我們能夠更好地利用所掌握的資訊資源。隨著Web 應用程式的普及,商務智能的解決方案能夠提供基於Web 的應用服務,這樣就擴充了商務智能的資訊發布範圍。作為基於Web 的商務智能解決方案,需要一些基本的組成要素,包括基於Web 的商務智慧型服務器、會話管理服務、檔案管理服務、調度、分配和通知服務、Server Load Balancer服務和應用服務等。