標籤:python 多線程 讀檔案
python多線程讀取同一個檔案
多線程讀取同一個檔案,要求不能重複,不能遺漏。
最開始嘗試了一種方法(後來實踐證明是無效的)
主線程分配給每個讀線程需要讀取檔案中哪些行,
比如線程1讀取1-10行,線程2讀取11-30行。
然後每個線程通過readline()來讀取,讀到的行如果不屬於本線程的範圍,則continue跳過。
實踐證明,這若干個線程並沒有按照我們期望來讀。
我的猜想是,通過open來開啟一個檔案,多個線程返回的是同一個控制代碼,
或者一個檔案的檔案指標只有一個。
經過網上搜尋和實踐,總結出有以下方法支援多線程讀取同一個檔案。
1 通過隊列Queue來實現。主線程啟動一個線程來讀檔案,把檔案的內容放到隊列裡。
然後啟動若干線程,全部從隊列取資料。python中的Queue是安全執行緒的。
http://stackoverflow.com/questions/18781354/is-iterating-over-a-python-file-object-thread-safe
Is iterating over a Python file object thread safe?
2 通過linecache來實現。linecache可以指定行號來讀取一個檔案的任意一行。主線程先分配給每個讀線程各自讀取的行號,然後各線程根據行號用linecache來讀取。
此種方法依賴於linecache讀取任意一行的速度,如果是大檔案,則比較慢。
比如線程1需要讀取10-20行。假設線程1有自己的檔案指標的話,讀了地10行,可以直接很快定位到第11行。但是用linecache讀取的話,每一次讀取一行就沒有什麼關係了。當然,對於linecache怎麼定位到任意一行,其中的原理我也沒探究過。
3分檔案讀取。python先調用linux命令head和tail,將一個檔案分成若干個檔案。然後每個讀線程負責讀取一個檔案即可。
python多線程讀取同一個檔案