標籤:
本文和大家分享的主要是使用python語言解決Cx_Oracle查詢時UnicodeDecodeError的問題方法步驟,一起來看看吧,希望對大家有所協助。 近期在項目中,要對1張100多萬條記錄的表進行查詢,然後進行一些資料的統計,但是在這個過程中,發現只查詢出來幾條資料就出現了UnicodeDecodeError了。 在這裡,我們使用sqlalchemy庫進行查詢,其內部還是Cx_Oracle來進行對應的操作,使用的Python版本為3.5.0,宿主系統為Windows 2008 Server,然後進行類似如下的操作: from sqlalchemy import create_engine engine = create_engine(’oracle://demo:[email protected]/TEST’) conn = engine.connect() sql = ’select t.type from TS t’ result = conn.execute(sql) for row in result: print(row[’type’]) 在這裡,我們首先建立1個到資料庫的串連,然後進行對應的查詢操作。很不幸的是,只查詢不到10條記錄就出現了1個UnicodeDecodeError錯誤了。 本來以為是資料庫的伺服器編碼問題,因此在create_engine函數中追加了encoding參數,將其更改為: engine = create_engine(’oracle://demo:[email protected]/TEST’,encoding="UTF-8") 而另外1種可用的方式直接在串連路徑中指定編碼,類似如下: engine = create_engine(’oracle://demo:[email protected]/TEST?charset=utf-8’) 但是問題還是沒有解決。在網上搜尋了一下都沒有找到適應的解決方案,突然想起來之前在使用Mysql資料庫的時候,出現亂碼的時候,我們常常會進行如下的操作: set names gbk; 我們通過這種方式設定用戶端的編碼,而不是伺服器端的編碼,來解決終端下出現亂碼的情況。而另外在Linux下安裝Oracle的用戶端時,設定了1個 NLS_LANG 的環境變數,詳情可以參考 Ubuntu14.04安裝Oracle Instant Client 這篇文章,當然這篇文章有一些細節的東西沒有介紹。 一般情況下,我們在cmd中進行如下的設定: setenv NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK 我們指定Oracle訊息使用的語言為簡體中文,而用戶端的字元集為GBK。 另外,我們還可以執行如下的語句來確保上述的操作是正確的: SELECT * FROM v$nls_parameters; 由於上述資料庫伺服器是部署在Windows上的,因此其結果自然為GBK,因此如果我們用戶端使用UTF8字元集進行解碼,自然而言會出現解碼的錯誤。 我們需要注意的是,只有在資料庫伺服器端與用戶端的編碼一致的情況下,我們才能正常的顯示非ASCII編碼,而在sqlalchemy中預設會將查詢的字串強制將其轉換為Unicode。因此類似Python3的如下過程: >>> a=’中國’.encode(’gbk’) >>> a b’\xd6\xd0\xb9\xfa’ 而在sqlalchemy中由於強制進行編碼轉換,因此類似執行如下的過程: >>> a.decode(’utf-8’) Traceback (most recent call last): File "", line 1, in <module> UnicodeDecodeError: ’utf-8’ codec can’t decode byte 0xd6 in position 0: invalid continuation byte 因此就出現上述的問題了。而正常的情況應該指定其編碼為GBK: >>> a.decode(’gbk’) ’中國’ 而設定 NLS_LANG 就是相當於修改上述的編碼為GBK。
來源:The kite in the wind
使用Python解決Cx_Oracle查詢時UnicodeDecodeError的問題