python爬蟲第5天 讀取文檔

來源:互聯網
上載者:User

本章重點介紹文檔處理的相關內容,包括把檔案下載到檔案夾裡,以及讀取文檔並提取數 據。我們還會介紹文檔的不同編碼類別型,讓程式可以讀取非英文的 HTML 頁面



純文字

beautifulsoup()只對HTML檔案有作用

一個常見的誤解是 UTF-8 把所有字元都儲存成 8 位。其實“8 位”只是顯示一個字元需要的最小位元,而不是最大位元


讀取CSV檔案 

對於線上的檔案

• 手動把 CSV 檔案下載到本機,然後用 Python 定位檔案位置; 

• 寫 Python 程式下載檔案,讀取之後再把源檔案刪除; 

• 從網上直接把檔案讀成一個字串,然後轉換成一個 StringIO 對象,使它具有檔案的 屬性


csv.DictReader 會返回把 CSV 檔案每一行轉換成 Python 的字典對象返回,而不是列表對 象,並把欄位列表儲存在變數 dictReader.fieldnames 裡,欄位列表同時作為字典對象的鍵


PDF

PDFMiner3K 就是一個非常好用的庫



微軟Word和.docx

想讀取 Microsoft Office 檔案的本文內容,我們需要自己動手找方法









相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.