大資料:資料品質的好朋友? 來源資料品質問題

來源:互聯網
上載者:User

如果您希望將資料集匯總到從前在同質資料庫中無法共存的 HTTP://www.aliyun.com/zixun/aggregation/14417.html">Apache Hadoop 集群中, 如果您期望在它們之間構建統一視圖,那麼您可能會感覺如夢初醒。 當開始處理過去一直未充分利用的資訊源時,品質問題並不少見。

在探討未充分利用的資料時,品質問題可能會成為滿是骯髒之物的老鼠窩,幾乎是在浪費精力預測無法預料的問題。 例如,幾年前,我們開展了一項複雜8206.html">系統可用性預測分析專案,發現提供作為參考的系統資料非常容易變異,並且與規範中所述的特徵截然不同。 「標準」絕非僅僅是「建議」。 在這種情況下,您需要追溯並處理核心系統資料生成,或者解決這些品質問題。 這是一種相當普遍的現象,因為依據定義,當您處理未充分利用的資訊來源時,這些來源很可能是首次投入嚴格使用。

當您合併結構化資料與新出現的大量非結構化來源時,這個問題的複雜性將上升到一個新的高度(這一點幾乎毋庸置疑),據官方記錄,該問題極少得到妥善管理。 事實上,在處理非結構化資訊(它是最重要的新型大資料來源)時,預計該資料會模糊失真、前後矛盾和嘈雜混亂。 越來越多的大資料來源開始提供非事務性資料(包括事件、地理空間、行為、點擊流、社交和感應器等),模糊失真和嘈雜混亂是這些資料的本質特徵。 通過單一系統為此類資料的處理操作建立官方標準和共用方法是一個不錯的想法。

大資料可能具有更多的品質問題,只是因為其資料量更大

當探討大資料時,通常會提及量大、速度快和品種多。 當然,這還意味著您很可能發現遠遠多於小型資料集的劣質資料記錄。

但是,這只是大資料集規模較大所導致的問題,而不會導致品質問題的幾率更高。 雖然無論從數量上還是管理上而言,十億個樣本中出現 1% 的資料逼真度問題比一百萬個樣本中出現 1% 的問題要糟糕得多,雖然整體比率仍然保持不變,而且對結果分析產生的影響也是一致的。 在這種情況下,資料清理工作可能需要耗費更大的精力,但是,正如我們前面所說的,這其實是一項工作負載縮放問題,大資料平臺非常擅長處理這類問題。

有趣的是,大資料非常適合用於解決資料品質問題,而這正是長期困擾統計分析世界的問題:傳統方法需要建立培訓樣本模型,而不是為整體資料記錄建立模型。 這種觀點非常重要,但並未受到足夠的重視。 長期以來,分析資料平臺的可擴充性限制迫使建模者放棄了資料集細微性分析,以便加速模型構建、執行和計分過程。 沒有足夠的完善資料供您驅策意味著您可能會完全忽略離群值記錄,因此,記錄分析曲解風險將成為漏網之魚。

當您滿心歡喜地濾除稀疏/離群值記錄時,與其說會導致資料品質問題(來源和樣本中的資料可能完全正確且保持最新狀態),不如說會導致下游資料解析損失問題。 然而,其效果可能並無二致。 簡單地說,整個資料集的噪音風險小於錯誤或受限樣本導致的失真或壓縮/人工結果風險。 我們並不是說採樣不好,但通常情況下,當您可以選擇刪除妨礙使用所有資料的限制時,那麼您應當選擇這種做法。

我們也並不是說所有此類操作都很容易。 下面我們來看一個造成社交聆聽領域混亂的特定客戶案例。 當處理有關某個主題的一般性討論時,噪音或錯誤資料管理非常容易。 這裡的活動量通常需要考慮離群值,顧名思義,您需要對客戶進行偵聽。 資料來自四面八方,因此您可能相信(但需要通過敏感性分析驗證)遺漏或損壞的資料不會導致人們所說的誤解。 然而,當您判斷特定客戶所說的內容,並隨後確定應當如何對該客戶進行答覆的時候,遺漏或損壞的資料所造成的問題將被擴大。 出現問題的可能是(也可能不是)運行分析所用的終端,但實質上,這會帶來更大的挑戰。 您需要瞭解資料錯誤所帶來的影響,並進行相應的設計。 我們會在後面的幾個專欄中瞭解有關此主題的更多資訊。

大資料可以成為資料品質的好朋友,或者至少是源自其他位置的品質問題的無辜旁觀者。 大家同意嗎?

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.