格式化和清洗資料的 Python 工具包

來源:互聯網
上載者:User
世界很雜亂,來自現實世界的資料也一樣雜亂。近來一份調查報告顯示資料科學家60%的時間都花在整理資料上。不幸的是,57%的人認為這是工作中最頭疼的一部分。

整理資料非常消耗時間,不過也有許多工具被開發出來讓這關鍵的一步變得稍微可以忍受。Python 社區提供了許多庫讓資料變得清晰有序——從格式化 DataFrame 到匿名化資料集。

告訴我們你覺得有用的庫——我們一直致力於最佳化放入Mode Python Notebooks中的庫。

Dora

Dora是為探索性分析而設計的。特別是自動化分析中最痛苦的部分——比如特徵選取和提取,可視化,還有你能猜到的——資料清潔。資料清潔相關的函數可以:

讀取含有缺失資料和沒有標準化的資料表

給缺失資料賦值

標準化變數

開發人員:Nathan Epstein
更多資料:https://github.com/NathanEpstein/Dora

datacleaner

號外號外,datacleaner 清洗你的資料——不過只有在你的資料是 pandas DataFrame 執行個體的時候。開發人員Randy Olson說:“datacleaner 不是魔法,它無法神奇的解析你沒有結構的資料。”

它可以刪除含有缺失資料的行,或者利用列的眾數或中位元填充缺失資料,將非數值型變數轉化為數值型變數。這個庫很新,但考慮到DataFrame 是 Python 資料分析的基本資料結構,這個庫還是值得試試看的。

開發人員:Randy Olson
更多資料:https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame 很強大,但是它們無法製作出你可以直接給你的老闆看的表。PrettyPandas 利用了pandas 風格 API 將 DataFrame 轉換成可以示範的表格。產生資料摘要,設定風格,調整資料格式,列和行。附加福利:強健,可讀性高的使用文檔。

開發人員:Henry Hammond
更多資料:https://github.com/HHammond/PrettyPandas

tabulate

tabulate 可以讓你僅僅用一個函數調用產生小型耐看的表格。非常適合於通過調整小數點列對齊,資料格式,表頭和其他讓表格可讀性更高。

它有一個超酷的功能是可以讓表格輸出成不同的格式:HTML, PHP 或者 Markdown Extra,這樣你可以用其他的工具或語言繼續在使用你已經表格化的資料。

開發人員: Sergey Astanin
更多資料:https://pypi.python.org/pypi/tabulate

scrubadub

健康領域和金融領域的資料科學家常需要匿名化資料集。scrubadub可以將 私人資訊 (PII) 從文本從移除。例如:

姓名 (名詞)

Email地址

網路連結

電話號碼

使用者名稱/密碼組

Skype 使用者名稱

社會保險號

文檔很好的示範了通過哪些途徑你可以自訂 scrubadub 的行為,例如定義新的 PII 或者保留特定的 PII。

開發人員:Datascope Analytics
更多資料:http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

讓我們實話實說:在 Python 裡處理日期和時間是很痛苦的。當地時區無法被自動識別。得用好幾行不那麼讓人舒服的代碼來轉換時區和時間戳記。

Arrow 旨於解決這個問題並且填補這個功能空白,從而讓你可以用更少的代碼和引入庫來完成對日期和時間的操作。跟 Python 的標準時間庫不同的是,Arrow 預設自動識別時區和 UTC。你可以只用一行代碼來完成時區轉換或者分析時間字串。

開發人員:Chris Smith
更多資料:http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier 的任務很簡單:清洗 URL 和 Email 地址並讓它們看起來更漂亮。你可以通過網域名稱和使用者名稱來解析 email ; 通過網域名稱和參數來解析URL。(UTM 或者標記)

開發人員:Sachin Philip Mathew
更多資料:https://github.com/sachinvettithanam/beautifier

ftfy

ftfy (fixes text for you) takes in bad Unicode outputs good Unicode. Basically, it fixes all the junk characters. “quotesâ€x9d becomes "quotes"; ü becomes ü; <3 becomes <3. If you work with text on a daily basis, this library is, as one user says, “a handy piece of magic.”

ftfy (fixes text for you)將雜亂的Unicode轉化為可識別的Unicode。簡單的說,它處理所有的垃圾字元。“quotesâ€x9d 變成 "quotes"; ü 變成 ü; <3 變成 <3.

開發人員:Luminoso
更多資料:https://github.com/LuminosoInsight/python-ftfy

  • 聯繫我們

    該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

    如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

    A Free Trial That Lets You Build Big!

    Start building with 50+ products and up to 12 months usage for Elastic Compute Service

    • Sales Support

      1 on 1 presale consultation

    • After-Sales Support

      24/7 Technical Support 6 Free Tickets per Quarter Faster Response

    • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.