pandas 讀取大檔案 read_table C-engine CParserError: Error tokenizing data

來源:互聯網
上載者:User

標籤:exce   erer   style   color   getting   complete   strong   loop   encoding   

解決辦法:

pd_data = pd.read_table(comment_file,header=None,encoding=‘utf-8‘, engine=‘python‘)

官網解析:

    engine : {‘c’, ‘python’}, optional

Parser engine to use. The C engine is faster while the python engine is currently more feature-complete.

 

1、

iterator : boolean, default False

Return TextFileReader object for iteration or getting chunks with get_chunk().

或者通過chunk 擷取

pd_data = pd.read_table(comment_file,header=None,encoding=‘utf-8‘,iterator=True)
# print(pd_data)
# pd_data_t = pd.read_table(comment_file,header=None,encoding=‘utf-8‘, engine=‘python‘)
# return;
loop = True
chunk_data = []
chunk_size = 1024
while loop:
try:
pd_data_tmp = pd_data.get_chunk(chunk_size)
chunk_data.append(pd_data_tmp)
except StopIteration:
loop = False
df = pd.concat(chunk_data,ignore_index=True)

 

pandas 讀取大檔案 read_table C-engine CParserError: Error tokenizing data

相關文章

Alibaba Cloud 10 Year Anniversary

With You, We are Shaping a Digital World, 2009-2019

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。