在kettle中實現資料驗證和檢查,kettle實現資料驗證
在kettle中實現資料驗證和檢查
在ETL項目,輸入資料通常不能保證一致性。在kettle中有一些步驟可以實現資料驗證或檢查。驗證步驟可以在一些計算的基礎上驗證行貨欄位;過濾步驟實現資料過濾;javascript步驟可以實現更複雜的計算。
通常以某種方式查看那些資料是有缺陷的也是有用的,因為大多數ETL是無人值守啟動並執行,所以通常ETL程式會把這些缺陷資料通知給ETL開發人員或管理員。建議把這些問題資料行儲存到一個特定的公用表格中,以便跟蹤這些資料;那麼該表格應該包括一些元資訊,如:運行轉換的名稱、驗證錯誤及錯誤描述等。
在這裡下載樣本檔案,csv輸入檔案中記錄客戶到達和離開的兩個健身場所,轉換程式驗證客戶ID,場所名稱,日期格式,給定日期的合理性。正確的資料寫入到excel檔案,錯誤資料重新導向到錯誤收集步驟,每行錯誤資料被拼成一個字元欄位,同時也收集一些關於轉換的中繼資料資訊及錯誤描述,最終這些錯誤資料行資訊儲存到另一個excel檔案。
實際情境中輸出步驟更可能是表輸出步驟,“get System Info”步驟會收集更多資料,之後的錯誤手機步驟,最好使用子轉換,為了在其他轉換中重用。
以結構化的方式儲存驗證錯誤也使很好地方便資料監測成為可能,ETL過程完成後,可以簡單地發送郵件給管理員,簡短的說明關於包括錯誤碼,轉換名稱,BATCH_ID等資料的缺陷,以及任何你需要的中繼資料。如果你工作是關於DWH或BI方面的,現在手頭已經有了必要的工具。如果您不想使用的excel報告的方式,你可能仍然使用kettle的job建立一個簡短的報告檔案,並郵寄給了管理員。
在kettle的圖形介面中可以直接實現資料幫浦與轉換 為何還要先儲存成ktr檔案然後用java程式調用
都可運行,非圖形介面運行可減少圖形介面消耗的資源,且運行方式很多種,例形介面運行、命令列調用運行、程式調用運行、遠程機子運行(叢集運行)等。
使用kettle完成資料移轉後,怎再通過kettle工具對來源資料庫中的資料與遷移後的資料進行對比?
使用kettle的核心對象:插入更新,根據主鍵來完成判斷。