大資料相關技術說明(一)

來源:互聯網
上載者:User

標籤:

1.什麼是ETL

   ETL,Extraction-Transformation-Loading的縮寫,中文名為資料幫浦、轉換和載入。ETL負責將分布的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中介層後進行清洗、轉換、整合,最後載入到資料倉儲資料集市中,成為線上分析處理資料採礦的基礎。ETL是BI項目最重要的一個環節,通常情況下ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。ETL也是一個長期的過程,只有不斷的發現問題並解決問題,才能使ETL運行效率更高,為項目後期開發提供準確的資料。

   ETL作為BI/DW(Business Intelligence)的核心和靈魂,能夠按照統一的規則集成並提高資料的價值,是負責完成資料從資料來源向目標資料倉儲轉化的過程,是實施資料倉儲的重要步驟。如果說資料倉儲的模型設計是一座大廈的設計藍圖,資料是磚瓦的話,那麼ETL就是建設大廈的過程。在整個項目中最難部分是使用者需求分析和模型設計,而ETL規則設計和實施則是工作量最大的,約佔整個項目的60%~80%,這是國內外從眾多實踐中得到的普遍共識。

   ETL是資料幫浦(Extract)、清洗(Cleaning)、轉換(Transform)、裝載(Load)的過程。是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。

 

在技術上,ETL主要涉及到關聯、轉換、增量、調度和監控等幾個方面;資料倉儲系統中資料不要求與聯機交易處理系統中資料即時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對資料倉儲中資訊的有效性至關重要。

ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider。

ETL工具的典型代表有:nformatica、Datastage、OWB、微軟DTS、Beeload、Kettle……

2.什麼是資料倉儲?

 

(1)定義:

資料倉儲是決策支援系統(dss)和聯機分析應用資料來源的結構化資料環境。資料倉儲研究和解決從資料庫中擷取資訊的問題。資料倉儲的特徵在於面向主題、整合性、穩定性和時變性。

資料倉儲 ,由資料倉儲之父比爾·恩門(Bill Inmon)於1990年提出,主要功能仍是將組織透過資訊系統之聯機交易處理(OLTP)經年累月所累積的大量資料,透過資料倉儲理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如線上分析處理(OLAP)、資料採礦(Data Mining)之進行,並進而支援如決策支援系統(DSS)、主管資訊系統(EIS)之建立,協助決策者能快速有效自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,協助建構商業智慧(BI)。

資料倉儲之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立資料倉儲》)一書中所提出的定義被廣泛接受——資料倉儲(Data Warehouse)是一個面向主題的(Subject Oriented)、整合的(Integrated)、相對穩定的(Non-Volatile)、反映曆史變化(Time Variant)的資料集合,用於支援管理決策(Decision Making Support)。

2.資料倉儲的特點

1、資料倉儲是面向主題的;操作型資料庫的資料群組織面向交易處理任務,而資料倉儲中的資料是按照一定的主題域進行組織。主題是指使用者使用資料倉儲進行決策時所關心的重點方面,一個主題通常與多個操作型資訊系統相關。

2、資料倉儲是整合的,資料倉儲的資料有來自於分散的操作型資料,將所需資料從原來的資料中抽取出來,進行加工與整合,統一與綜合之後才能進入資料倉儲;

資料倉儲中的資料是在對原有分散的資料庫資料幫浦、清理的基礎上經過系統加工、匯總和整理得到的,必須消除來源資料中的不一致性,以保證資料倉儲內的資訊是關於整個企業的一致的全域資訊。

資料倉儲的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉儲以後,一般情況下被長期保留,也就是資料倉儲中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要週期性載入、重新整理。

資料倉儲中的資料通常包含曆史資訊,系統記錄了企業從過去某一時點(如開始應用資料倉儲的時點)到各個階段的資訊,通過這些資訊,可以對企業的發展曆程和未來趨勢做出定量分析和預測。

3、資料倉儲是不可更新的,資料倉儲主要是為決策分析提供資料,所涉及的操作主要是資料的查詢;

4、資料倉儲是隨時間而變化的,傳統的關聯式資料庫系統比較適合處理格式化的資料,能夠較好的滿足商業商務處理的需求。穩定的資料以唯讀格式儲存,且不隨時間改變。

5、匯總的。操作性資料對應成決策可用的格式。

6、大容量。時間序列資料集合通常都非常大。

7、非正常化的。Dw資料可以是而且經常是冗餘的。

8、中繼資料。將描述資料的資料儲存起來。

9、資料來源。資料來自內部的和外部的非整合作業系統。

資料倉儲,是在資料庫已經大量存在的情況下,為了進一步挖掘資料資源、為了決策需要而產生的,它並不是所謂的“大型資料庫”。資料倉儲的方案建設的目的,是為前端查詢和分析作為基礎,由於有較大的冗餘,所以需要的儲存也較大。為了更好地為前端應用服務,資料倉儲往往有如下幾點特點:

1.效率足夠高。資料倉儲的分析資料一般分為日、周、月、季、年等,可以看出,日為周期的資料要求的效率最高,要求24小時甚至12小時內,客戶能看到前一天的資料分析。由於有的企業每日的資料量很大,設計不好的資料倉儲經常會出問題,延遲1-3日才能給出資料,顯然不行的。

2.資料品質。資料倉儲所提供的各種資訊,肯定要準確的資料,但由於資料倉儲流程通常分為多個步驟,包括資料清洗,裝載,查詢,展現等等,複雜的架構會更多層次,那麼由於資料來源有髒資料或者代碼不嚴謹,都可以導致資料失真,客戶看到錯誤的資訊就可能導致分析出錯誤的決策,造成損失,而不是效益。

3.擴充性。之所以有的大型資料倉儲系統架構設計複雜,是因為考慮到了未來3-5年的擴充性,這樣的話,未來不用太快花錢去重建資料倉儲系統,就能很穩定運行。主要體現在資料建模的合理性,資料倉儲方案中多出一些中介層,使海量資料流有足夠的緩衝,不至於資料量大很多,就運行不起來了。

從上面的介紹中可以看出,資料倉儲技術可以將企業多年積累的資料喚醒,不僅為企業管理好這些海量資料,而且挖掘資料潛在的價值,從而成為通訊企業運營維護系統的亮點之一。正因為如此,

廣義的說,基於資料倉儲的決策支援系統由三個組件組成:資料倉儲技術,線上分析處理技術和資料採礦技術,其中資料倉儲技術是系統的核心,在這個系列後面的文章裡,圍繞資料倉儲技術,介紹現代資料倉儲的主要技術和資料處理的主要步驟,討論在通訊運營維護系統中如何使用這些技術為運營維護帶來協助。

4.面向主題

操作型資料庫的資料群組織面向交易處理任務,各個業務系統之間各自分離,而資料倉儲中的資料是按照一定的主題域進行組織的。主題是與傳統資料庫的面嚮應用相對應的,是一個抽象概念,是在較高層次上將公司資訊系統中的資料綜合、歸類並進行分析利用的抽象。每一個主題對應一個宏觀的分析領域。資料倉儲排除對於決策無用的資料,提供特定主題的簡明視圖。

(3)資料倉儲的用途

資訊技術與資料智能大環境下,資料倉儲在軟硬體領域、Internet 和企業內部網解決方案以及資料庫方面提供了許多經濟高效的計算資源,可以儲存極大量的資料供分析使用,且允許使用多種資料訪問技術。

開放系統技術使得分析大量資料的成本趨於合理,並且硬體解決方案也更為成熟。在資料倉儲應用中主要使用的技術如下:

並行

計算的硬體環境、作業系統環境、 資料庫管理系統和所有相關的資料庫操作、查詢工具和技術、應用程式等各個領域都可以從並行的最新成就中獲益。

分區

資料分割函數使得支援大型表和索引更容易,同時也提高了資料管理和查詢效能。

資料壓縮

資料壓縮功能降低了資料倉儲環境中通常需要的用於儲存大量資料的磁碟系統的成本,新的資料壓縮技術也已經消除了壓縮資料對查詢效能造成的負面影響。[1]

 

3.什麼是資料集市?資料集市

為了特定的應用目的或應用範圍,而從資料倉儲中獨立出來的一部分資料,也可稱為部門資料或主題資料(subjectarea)。在資料倉儲的實施過程中往往可以從一個部門的資料集市著手,以後再用幾個資料集市組成一個完整的資料倉儲。需要注意的就是在實施不同的資料集市時,同一含義的欄位定義一定要相容,這樣在以後實施資料倉儲時才不會造成大麻煩。

國外知名的Garnter關於資料集市產品報告中,位於第一象限的敏捷商業智慧產品有QlikView, Tableau和SpotView,都是全記憶體計算的資料集市產品,在大資料方面對傳統商業智慧產品巨頭形成了挑戰。國內BI產品起步較晚,知名的敏捷型商業智慧產品有PowerBI, 永洪科技的Z-Suite,SmartBI等,其中永洪科技的Z-Data Mart是一款熱記憶體計算的資料集市產品。國內的德昂資訊也是一家資料集市產品的系統整合商

 

4.什麼是資料採礦(DM--Data Mining

   資料採礦是從大量的、不完全的、有雜訊的、模糊的、隨機的實際資料中,提取隱含在 其中的、人們所不知道的、但又是潛在有用資訊和知識的過程。

資料採礦可以用來做什嗎?

資料採礦能做以下七種不同事情(分析方法):

  · 分類 (Classification)

  · 估值(Estimation)

  · 預言(Prediction)

  · 相關性分組或關聯規則(Affinity grouping or association rules)

  · 聚集(Clustering)

  · 描述和可視化(Description and Visualization)

  · 複雜資料類型挖掘(Text, Web ,圖形映像,視頻,音頻等)

 

大資料相關技術說明(一)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.