大資料治理是更廣泛的資訊治理計畫的一部分,通過調整多個功能的目標制定與大資料優化、隱私和貨幣化相關的策略。 然而,若不了解基礎HTTP://www.aliyun.com/zixun/aggregation/18278.html">資料類型,大資料治理則毫無意義。
圖 1. 大資料治理的一個 3 維框架
圖字:行業和功能、大資料類型、資訊治理
本文提供一個大資料治理框架。 如圖 1 所示,該礦框架由 3 個維度構成:
大資料類型 大資料可分成 5 類:Web 和社交媒體、機器到機器(M2M)、大交易資料、生物識別和人為產生的。
資訊治理學科 資訊治理傳統學科 – 組織、中繼資料、隱私、資料品質、業務流程集成、主資料整合,以及資訊生命週期管理 – 也適用于大資料。 例如,感應器資料需要集成到一個預防性維護流程中。 然而,如果不同機器上的感應器生成不一致的事件代碼,就很難簡化維護流程。
行業和功能 大資料分析是由特定于給定行業或功能的用例所驅動,比如市場行銷、客戶服務、資訊安全或資訊技術。
如上所述,大資料分為 5 類:
1. Web 和社交媒體資料 包括來自社交媒體的點擊流和交互資料,比如 Facebook、Twitter、LinkedIn 和博客。
2. 機器到機器資料 包括從感應器、測量儀以及屬於所謂的「物聯網」的其他設備中讀取的資料。
3. 大交易資料 包括醫療索賠、電信呼叫詳細記錄(CDR)和以半結構化和結構化格式提供的越來越多的公用事業帳單記錄。
4. 生物識別資料 包括指紋、基因、筆跡、視網膜掃描以及相似類型的資料。
5. 人為產生的資料 包括大量非結構化和半結構化資料,比如話務中心代理的筆記、錄音、電子郵件、紙質文檔、調查、電子醫療記錄。
大資料框架看起來有所不同,具體取決於行業和功能。
醫療保健供應商
解決方案: 病患監護
大資料類型:M2M資料
學科: 資料品質、資訊生命週期管理、隱私
在新生兒重症監護室,醫院利用流線化分析技術監護新生兒的健康情況。 使用這些技術,醫院能夠在任何症狀出現前 24 小時預測尚未發作的疾病。 這些技術依賴于大量時間序列資料 – 但是,當病人移動時這類資料有時候會消失,這可能導致脫離和停止提供讀數。 在這些情況下,流線化平臺使用線性和多項式回歸來使用歷史讀數填補時間序列資料空白。 醫院也為所有經軟體演算法修改過的時間序列資料加上標記。 如果發生訴訟或醫療調查案件,醫院211.html">覺得必須同時生成原始讀數和修改後的讀數。 另外,醫院也圍繞維護受保護健康資訊制定了政策。
解決方案: 基於電子醫療記錄的預測性建模
大資料類型:人為產生的資料
學科: 資料品質
醫院的分析部門構建了一個基於 150 個變數和 20,000 個接診病人的預測性模型,以確定一個病人可能再次住院接受 30 天的充血性心力衰竭治療的可能性。 在一個預測性模型有效性示例中,分析團隊將病人吸煙狀況確定為一個關鍵變數。 起初,只有 25% 的關於吸煙狀況的結構化資料是以二元答案「是/不是」填充的。 但是,分析團隊通過使用基於電子醫療記錄的內容分析將吸煙狀態人口比率增加到了接診人數的 85%,該電子醫療記錄包含醫囑、出院摘要和病人體檢 – 結果是分析團隊通過使用非結構化資源提高了稀疏分步的結構化資料的品質。