Python讀取大檔案的實現方法

來源:互聯網
上載者:User

Python讀取大檔案的實現方法

背景

最近處理文字文件時(檔案約2GB大小),出現memoryError錯誤和檔案讀取太慢的問題,後來找到了兩種比較快Large File Reading 的方法,本文將介紹這兩種讀取方法。

準備工作

  我們談到“文本處理”時,我們通常是指處理的內容。Python 將文字檔的內容讀入可以操作的字串變數非常容易。檔案對象提供了三個“讀”方法: .read()、.readline() 和 .readlines()。每種方法可以接受一個變數以限制每次讀取的資料量,但它們通常不使用變數。 .read() 每次讀取整個檔案,它通常用於將檔案內容放到一個字串變數中。然而.read() 組建檔案內容最直接的字串表示,但對於連續的面向行的處理,它卻是不必要的,並且如果檔案大於可用記憶體,則不可能實現這種處理。下面是read()方法樣本:

try:
f = open('/path/to/file', 'r')
print f.read()
finally:
if f:
f.close()

  調用read()會一次性讀取檔案的全部內容,如果檔案有10G,記憶體就爆了,所以,要保險起見,可以反覆調用read(size)方法,每次最多讀取size個位元組的內容。另外,調用readline()可以每次讀取一行內容,調用readlines()一次讀取所有內容並按行返回list。因此,要根據需要決定怎麼調用。
   如果檔案很小,read()一次性讀取最方便;如果不能確定檔案大小,反覆調用read(size)比較保險;如果是設定檔,調用readlines()最方便:

for line in f.readlines():
process(line) #

分塊讀取

處理大檔案是很容易想到的就是將大檔案分割成若干小檔案處理,處理完每個小檔案後釋放該部分記憶體。這裡用了iter 和 yield:

def read_in_chunks(filePath, chunk_size=1024*1024):
"""
Lazy function (generator) to read a file piece by piece.
Default chunk size: 1M
You can set your own chunk size
"""
file_object = open(filePath)
while True:
chunk_data = file_object.read(chunk_size)
if not chunk_data:
break
yield chunk_data
if __name__ == "__main__":
filePath = './path/filename'
for chunk in read_in_chunks(filePath):
process(chunk) # <do something with chunk>

使用With open()

with語句開啟和關閉檔案,包括拋出一個內部塊異常。for line in f檔案對象f視為一個迭代器,會自動的採用緩衝IO和記憶體管理,所以你不必擔心大檔案。

代碼如下:

#If the file is line based
with open(...) as f:
  for line in f:
    process(line) # <do something with line>

最佳化

面對百萬行的大型資料使用with open 是沒有問題的,但是這裡面參數的不同也會導致不同的效率。經過測試發先參數為"rb"時的效率是"r"的6倍。由此可知二進位讀取依然是最快的模式。

with open(filename,"rb") as f:

    for fLine in f:

      pass 

測試結果:rb方式最快,100w行全遍曆2.9秒。基本能滿足中大型檔案處理效率需求。如果從rb(二級制讀取)讀取改為r(讀模數式),慢5-6倍。
結論

  在使用python進行大檔案讀取時,應該讓系統來處理,使用最簡單的方式,交給解譯器,就管好自己的工作就行了。同時根據不同的需求可以選擇不同的讀取參數進一步獲得更高的效能。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.