標籤:來源 錯誤 欄位 str 項目 電話 color 常用 總結
接觸Python兩年多了,還從來沒有獨立用Python完成一個項目,說來慚愧。最近因為工作需要,用Excel和oracle整理資料貌似不可行了,於是轉向Python,理所當然的踩了很多坑,一一記錄下來,避免以後再次入坑,畢竟不常用,好了傷疤就會忘了疼···
業務情境:
領導拿來幾個Excel,共150W條保險資料,需要按照特定規則篩選出滿足條件的資料。
欄位:業務機構、保單號、案例號、被保險人、代碼1、標的車號、VIN碼、駕駛員、電話、出險時間、出險經過、維修企業、定損金額、三者車號、三者VIN、三者駕駛員、代碼2、三者維修企業、查勘定損人員;
150W條資料沒有唯一識別欄位:同一個案例號對應一個標的車號、0-多個三者車號,一個標的車號對應一個或多個保單號,所以需要通過標的車號、保單號、報案號三個欄位唯一確定一條理賠記錄。
篩選規則:
電話頻率大於等於3次(1年內);車架號(標的及三者大於等於3次(1年內;駕駛員姓名(標的及三者)大於等於3次(1年內),標的與三者維修單位為同一修配廠的;同一車號或是車架號在10日內出險兩次的;出險時間在21:00~6:00的案例,做風險標識。
給到的資料,有以下幾個問題:
- 部分記錄資料不完整,整體缺失率較低
- 部分欄位資訊錄入錯誤,比如,電話欄位中出現字元、時間欄位中出現11位元字(疑似電話資訊)
- 有重複資料
- Excel資料表列名不一致
問題總結:
這就是一個簡單的資料篩選工作!
但是剛好工作不忙,剛好也想拿資料練練手,於是就開始操練起來了~
動手之前,要通過各種途徑對資料進行全方位的瞭解,否則,浪費時間!
通過向資料來源方詢問變數之間的關係、通過常識判斷各變數的取值特性、通過探索性分析瞭解各變數的缺失/取值情況、結果導向分析資料清洗過程中可能會遇到的問題。
問題分解:
- 資料存放區在多個Excel表格中,將這些資料讀到一個變數中
- 按篩選條件整理資料
- 輸出篩選資料
代碼部分,我要放到另一篇文章裡面~
Python基本的資料清洗