Python基本的資料清洗

來源:互聯網
上載者:User

標籤:來源   錯誤   欄位   str   項目   電話   color   常用   總結   

  接觸Python兩年多了,還從來沒有獨立用Python完成一個項目,說來慚愧。最近因為工作需要,用Excel和oracle整理資料貌似不可行了,於是轉向Python,理所當然的踩了很多坑,一一記錄下來,避免以後再次入坑,畢竟不常用,好了傷疤就會忘了疼···

業務情境:

  領導拿來幾個Excel,共150W條保險資料,需要按照特定規則篩選出滿足條件的資料。

  欄位:業務機構、保單號、案例號、被保險人、代碼1、標的車號、VIN碼、駕駛員、電話、出險時間、出險經過、維修企業、定損金額、三者車號、三者VIN、三者駕駛員、代碼2、三者維修企業、查勘定損人員;

  150W條資料沒有唯一識別欄位:同一個案例號對應一個標的車號、0-多個三者車號,一個標的車號對應一個或多個保單號,所以需要通過標的車號、保單號、報案號三個欄位唯一確定一條理賠記錄。

  篩選規則:

  電話頻率大於等於3次(1年內);車架號(標的及三者大於等於3次(1年內;駕駛員姓名(標的及三者)大於等於3次(1年內),標的與三者維修單位為同一修配廠的;同一車號或是車架號在10日內出險兩次的;出險時間在21:00~6:00的案例,做風險標識。

 

  給到的資料,有以下幾個問題:

  1. 部分記錄資料不完整,整體缺失率較低
  2. 部分欄位資訊錄入錯誤,比如,電話欄位中出現字元、時間欄位中出現11位元字(疑似電話資訊)
  3. 有重複資料
  4. Excel資料表列名不一致

問題總結:

  這就是一個簡單的資料篩選工作!

  但是剛好工作不忙,剛好也想拿資料練練手,於是就開始操練起來了~

    動手之前,要通過各種途徑對資料進行全方位的瞭解,否則,浪費時間!

         通過向資料來源方詢問變數之間的關係、通過常識判斷各變數的取值特性、通過探索性分析瞭解各變數的缺失/取值情況、結果導向分析資料清洗過程中可能會遇到的問題。

問題分解:

  1. 資料存放區在多個Excel表格中,將這些資料讀到一個變數中
  2. 按篩選條件整理資料
  3. 輸出篩選資料

代碼部分,我要放到另一篇文章裡面~

 

Python基本的資料清洗

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.