資料分析之前提--資料品質

來源:互聯網
上載者:User

                                                                資料品質是什麼

最近,資料分析是個熱門話題。傳統意義上,資料分析分兩類:EDA(Exploratory Data Analysis,探索性分析)和CDA(Confirmatory Data Analysis,驗證性資料分析)。EDA講究讓資料自己說話,而CDA進行分析之前一般都有預先設定的模型。

其實,資料分析和資料採礦的重點都不在資料本身,而在於如何能夠真正地解決資料運營中的實際商業問題。但是,要解決商業問題,就得讓資料產生價值,就得做資料分析和資料採礦。而在資料分析和資料採礦之前,首先必須保證高品質的資料,完成資料品質的處理工作,即對資料的整合和處理。因此,更好的資料意味著更好的決策,否則就是GIGO-Garbage in,Garbage out.

所以,資料分析的前提就是要保證資料品質。

資料品質要做什麼

傳統的資料品質工作主要包括兩方面:Data Integration和資料清洗,關注的對象主要有未經處理資料和中繼資料兩方面。

一、資料的整合

資料的整合主要解決資訊孤島的問題,包括兩方面:

1)資料倉儲對來源資料的整合.

2)中繼資料系統對不同資料來源中的中繼資料的整合。

相應的,資料品質管理也關注兩方面:

1)對資料倉儲中的真實資料的品質探查和剖析.

2)對中繼資料系統中中繼資料的資料品質的檢查.

二、資料的清洗

資料品質處理主要是採用一些資料清洗規則(DataCleansing)處理缺失資料、去除重複資料、去除雜訊資料、處理異常(但真實)的資料,從而保證資料的完整性、唯一性、一致性、精確性、合法性、及時性等資料品質

中繼資料的管理目標是整合公司資訊資產、支撐資料在使用過程中的透明可視,提升資料報告、資料分析、資料採礦的可信度,所以中繼資料的資料品質檢查著重在中繼資料資訊的唯一性、一致性、準確性的檢查。

資料品質怎麼做

一、資料品質的痛點

直到現階段,很多人還是沒充分意識到資料品質的重要性,原因有:

1)資料品質問題還沒有嚴重到影響其核心KPI的考核。

2)對資料提供團隊或者資料應用團隊挑出其資料品質問題,很容易被踢皮球,推卸責任,因為資料品質問題往往都是眾多環節綜合問題導致的結果。很多人會認為資料品質的引入會給自己的工作帶上鐐銬。

3)資料品質團隊往往是從監控、監督的角度去開展工作,沒有從資料使用者的自身價值的角度去提升資料品質,協助資料使用者更好的從資料治理工作中獲得價值,提升工作效率,增加工作的權威度和可信度,直接給資料使用者帶來業務價值,從而讓更多資料相關人員主動參與到資料品質的工作中來。所以,目前很多人都在談論資料品質,卻很少有人願意有實際行動。

二、資料品質的提升步驟

當風險還不是一個關鍵問題時,設立我們的風險分析團隊,對企業來說,也是一個很重要的防備舉措。企業資料部門的管理高層,必須達成一個共識,綜合的資料品質解決方案能給公司帶來巨大價值。在此基礎上,通過有計劃的步驟來進行企業內部的資料品質提升:

第一步,在企業範圍內,開展資料品質的相關討論,考慮公司目標以及各方利益,形成資料品質治理的目標、方針、策略、步驟,在企業範圍內,至少在資料管理和資料治理團隊內部能達成廣泛共識。

第二步,建立企業內部的職責和資料品質策略,建立劣質資料的經濟影響和高品質資料價值的評估體系。

第三步,建立開放的資料品質管理體系,把資料品質工作從單一由資料管理團隊負責的工作,轉化為公司內部所有資料提供者、資料處理者、資料使用者等資料相關者的共同參與。資料相關人員,會像司機關心即時交通狀況一樣,關心資料品質、資料安全等資料運營過程的資料運營全景和資料品質問題熱力圖,並能簡單的從熱力圖上,很容易看到跟自身責任的相關性,並及時參與處理。

大資料時代對資料品質的挑戰

一、 大資料時代還需要關注資料品質麼

關聯式資料庫時代,我們可以用資料倉儲和商業智慧的相關技術,完成Data Integration、資料分析和資料展示。但大家都知道,大資料時代,資料存在4V特點:

1)  Volume:數量,資料量巨大,從TB到PB層級

2)  Variety:種類,資料類型繁多,結構化、非結構化、半結構化等多樣性資料混雜

3)  Velocity:速度,處理速度快,1秒定律,跟傳統資料採礦需要漫長等待有本質不同

4)  Value:價值,價值密度低,商業價值高

二、 大資料時代的資料品質怎麼做

資料品質團隊的定位

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.