資料倉儲知識與實戰——電信電訊廠商數倉建模

來源:互聯網
上載者:User

標籤:銷售額   首碼   多個   組成   快照   流程   跟蹤   識別   資料建模   

網舟科技——王超

什麼是資料倉儲

資料倉儲是為企業提供彙總,儲存,投遞,以及提供決策支援能提,資料倉儲包含廣泛資料並按照主題進行儲存並且是在資料倉儲流程過程中的一個部分。Willianm(Bill) H. Inmon提出過一個概念:”一個面向主題的,整合的,時間序列變化的以及不易更改的資料的集合為管理者們的決策過程提供支援”。

總體架構上,資料倉儲設計人,過程和技術去實現提供一致性,整合化,標準化以及易於理解的決策支援資料的目標。

資料倉儲是什麼,不是什麼

一個資料倉儲是一個資料的倉庫,資料倉儲裡的資料是其他資料介質可操作資料的副本,這些資料通常是從多個資料來源擷取的,並且是對決策支援有用的,而不是最原始的資料。

“資料倉儲”,並不是資料庫的別稱,資料倉儲的資料也並不只是由曆史資料所構成,資料倉儲裡的資料也包含分析資料和報告資料,也可以交易資料,(些資料是有應用系統所管理的資料,並不存在於資料倉儲之中)。

資料倉儲架構組件

資料倉儲的技術架構包括:資料來源,ETL,和資料提供者。

資料倉儲架構組件

資料倉儲技術棧列表:


基礎架構的基礎設施

資料倉儲技術棧是構建在硬體和軟體架構之上的。


使用資料倉儲應用或者專用的資料庫基礎設施來協助我們構建資料倉儲,這些技術上旨在提供高效能。這些資料倉儲應用以最優的形式提供資料庫服務,使用MMP架構,它們包括具有一些特有功能的緊密耦合的電腦,以及可訪問的存放裝置進行並存執行,專有的功能包含:系統控制,資料庫訪問,資料載入,資料備份。

資料倉儲應用有超高的效能,他們有著比傳統資料庫高100倍的效能。

資料架構

資料架構是企業資料管理的藍圖,並且有一些概念,這些概念是:資料治理,資料品質,ILM,資料架構,中繼資料和含義,主要資料,最後是商業智慧.


資料流

該圖顯示了資料如何在資料倉儲系統中流動。資料首先來自資料來源,例如庫存系統(儲存在資料倉儲和操作資料儲存中的系統)。資料存放區被格式化以公開資料超市中的資料,然後使用BI和分析工具訪問這些資料超市。


資料

資料是我們獲得理解的原材料。它是資料建模、統計和資料採礦中的關鍵元素。它是金字塔的基礎。

資料的特徵:


資料監控

三個層次的資料建模是按順序來的:

概念資料模型——使用實體、屬性和關係描述問題的進階模型。

邏輯資料模型——用業務術語描述解決方案的詳細資料模型,它還使用實體、屬性和關係。

物理資料模型——定義資料庫物件(如表和列)的詳細資料模型。需要這個模型來實現資料庫中的模型並產生一個有效解決方案。

實體

實體是任何實體的核心部分概念和邏輯資料模型。實體是企業感興趣的對象可以是一個人,組織、地點,活動,事件,抽象,或者想法。實體在資料模型中表示為矩形。把實體看作單數名詞。


屬性

屬性是一個實體的特徵。屬性被歸類為主鍵、外鍵、備用鍵和非鍵,。


關係

關係是實體之間的聯絡。通過在相關實體之間劃一條線來描繪這種關係。描述了兩個實體——客戶和訂單——它們之間的關係。

基數

基數指定可能參與給定關係的實體的數量,表示為一對一、一對多或多對多,如下例所示:


基數被表示為最小和最大值。在下面的第一個例子中,一個執行個體的實體的可能有一個執行個體實體B,B和實體必須有一個且只有一個執行個體的指定實體A .基數將符號的關係線附近的兩個實體的關係。

在第二種情況下,實體A可能有一個或多個實體B的執行個體,而實體B必須有一個且只有一個實體A的執行個體。


正常化資料

正常化是一種組織的資料建模技術。將資料分解到最低水平,即,以避免重複。該方法用於設計資料倉儲系統的原子資料倉儲部分。以下是埃德加·f·科德(Edgar F. Codd)的前三個正常化層級。還有其他標準化層級,您可以在這裡瞭解更多。當關聯式資料庫達到第三個範式時,它被認為是正常化的。

原子資料倉儲

原子資料倉儲(ADW)是一個將資料分解為低級組件以準備輸出到資料集市的地區。ADW的設計採用了標準化和快速載入和記錄曆史的方法。

ADW被組織成具有邏輯鍵和支援跟蹤更改和快速載入/插入的可變資料的不變資料。使用一個整數作為主代理鍵。然後添加有效日期來跟蹤更改。


關聯實體

使用具有有效日期和到期日期的關聯實體跟蹤實體之間的關係曆史。


原子DW特有屬性

使用專門的屬性來提高ADW的效率和有效性。使用ADW_首碼標識這些屬性。


多維資料庫

維度資料庫是為查詢和分析最佳化的資料庫,不像原子資料倉儲那樣進行正常化。它由事實和維度資料表組成,其中每個事實都串連到一個或多個維度。

銷售訂單事實表:

日曆日期、產品、客戶、地理位置和銷售組織的維度將銷售訂單事實放入上下文中。這個星型模式支援以立方體的方式查看訂單,支援根據客戶、時間和產品進行切片和切割。


事實

事實是資料倉儲中的資訊單元,也是多維空間中的一個單元,受分析單元的限制。事實儲存於一張表中(當使用關聯式資料庫時)或者是多維資料庫中的一個單元。每個事實包括關於事實(銷售額,銷售量,成本,毛利,毛利率等)的基本資料,並且與維度相關。在某些情況下,當所有的必要資訊都儲存於維度中時,單純的事實出現就是對於資料倉儲足夠的資訊。

一個事實所包含的內容有表名,主鍵,和度量。


事件事執行個體子:

事件事實記錄單個事件,如金融交易、銷售、投訴或發貨。


快照事實:

快照事實捕獲項目在某個時間點的狀態,例如總賬餘額或庫存水平。


累積快照的事實:

累積快照事實將累積的資料(如今年迄今的資料量)添加到快照事實中。

彙總的事實:

匯總事實提供匯總資訊,比如一段時間內的總賬,或者每個商店每月的每個產品的投訴。


更多的事實:

無事實的事實跟蹤維度之間的聯絡,而不是數量度量。例如裡程,活動出席和促銷活動。


維度

維度是一個資料庫表,其中包含識別和分類的屬性。這些屬性作為報告的標籤和匯總的資料點。在維度模型中,維度圍繞並限定事實。

日期和時間維度:

日期維度支援趨勢分析,包括日期及其相關的周、月、季和年。時間維度用於分析每日業務量。


多維角色:

一個維度可以扮演多個角色。日期維度可以扮演快照日期、項目開始日期和項目結束日期的角色。


變質維度:

變質維度有一個維度鍵,沒有維度資料表。樣本包括交易號、發貨號和訂單號。


Data Integration

Data Integration是一種移動資料或在資料存放區之間提供資料的技術。Data Integration過程可以包括提取、移動、驗證、清理、轉換、標準化和載入。

ETL:

在Data Integration的ETL模式中,資料從資料來源中提取,然後在傳輸到staging資料庫時進行轉換。然後將資料載入到資料倉儲中。ETL非常適合批量資料的批處理。


ELT:

在Data Integration的ELT模式中,資料從資料來源中提取,並在不進行轉換的情況下載入到staging中。在此之後,資料將在staging中進行轉換,然後載入到資料倉儲中。

這種類型的整合以及使用視圖/查詢作為轉換部分將協助資料更快地為終端使用者所用。

CDC:

Data Integration的CDC模式在事件處理中非常強大。包含資料庫更改記錄的資料庫日誌將在登台時即時複製。然後將這些資訊轉換並載入到資料倉儲


CDC是支援即時資料倉庫的一項重要技術。

**
實際案例

中國電信電子渠道深度運營--資料倉儲篇**

為電訊廠商提供專業、高水平的流量經營服務,包括客戶洞察細分研究、流量業務常態營銷支撐、運營監控分析、客戶挖掘建模、培訓等一系列服務,網舟科技以客戶需求為牽引,協助電訊廠商提升流量業務精細化運營能力和互聯營銷能力。

網舟科技提供基於精準使用者行為分析的輿情監控(行業洞察)、競爭者分析、精準營銷等服務,為企業進行營銷決策提供資料支撐。

維度:

頁面地址,訪問時間戳記,螢幕解析度,來源類型,來源類型,關鍵字搜尋,搜尋引擎,城市代碼,產品資訊,瀏覽器,作業系統,新老訪客,頁面名稱。

通過對電訊廠商業務的深入分析我們根據幾個主題進行維度建模,例如時間序列,產品相關維度,使用者基本行為維度,以及廣告推廣和外鏈等幾大維度進行對業務的深入分析。

量度:

瀏覽量,訪客,訪問量,跳出率,退出率,平均逗留時間長度,實際訂單,轉化率,點進次數,搜尋次數,搜尋退出率,搜尋點擊結果率,搜尋無結果率,搜尋無結果次數

我們將使用者所關心的主題將主題包含的維度和量度進行構建資料立方體,使用者和業務分析人員可以通過不同層面進行資料採礦和探索來提高擷取資料資訊中所體現的資料價值。

資料報告:

PS:網舟科技長期專註於金融保險、通訊、航空、互連網、旅遊酒店等行業的電子渠道大資料運營,為客戶提供全球領先的電子渠道轉型諮詢、大資料採礦和應用定製服務,助力客戶互連網轉型,提升數字化運營和資料營銷能力。

資料倉儲知識與實戰——電信電訊廠商數倉建模

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.