python的print對編碼的處理

來源:互聯網
上載者:User
    python的print會對輸出的文本做自動的編碼轉換,而檔案對象的write方法就不會做,因此,當一些字串用print輸出正常時,write到檔案確不一定和print的一樣。
    print轉換的目的編碼和環境變數有關,Windows XP是轉換為gbk的。在linux下是按照環境變數來轉換的。在linux下使用locale命令就可以看到。比如我的是:
[zhaowei@papaya zhaowei]$ locale
LANG=zh_CN
LC_CTYPE="zh_CN"
LC_NUMERIC="zh_CN"
LC_TIME="zh_CN"
LC_COLLATE="zh_CN"
LC_MONETARY="zh_CN"
LC_MESSAGES="zh_CN"
LC_PAPER="zh_CN"
LC_NAME="zh_CN"
LC_ADDRESS="zh_CN"
LC_TELEPHONE="zh_CN"
LC_MEASUREMENT="zh_CN"
LC_IDENTIFICATION="zh_CN"
LC_ALL=
    這個時候會認為是gb2312的。在python中可以用locale模組來獲得當前環境的編碼:

import locale

print locale.getdefaultlocale()

    print在輸出時把字串自動裝換為這個編碼。看看下面,"喆"這個字是很著名的一個在gb2312中沒有的字,當把它轉換為gb2312的時候是會出錯的。

#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases

# 現在a是unicode的
a = u'喆'

print a.encode("gb2312")

    上面這段代碼會報異常,就是這個原因。但如果是直接 print a 就可以輸出來 (假設你的環境變數是GBK或者GB18030或者UTF-8)。如果你的環境變數是GB2312的,那這個print一樣會報錯!所以在處理其他地方來的文本資料時,最好不要用GB2312的編碼,是中文資料,一定要用GB18030或者UTF-8!
    而用檔案對象的write寫unicode的資料也是會出錯的!需要做編碼轉換。

#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases

# 現在a是unicode的
a = u'喆'

f = open("aaa.txt", "w")
f.write(a)
f.close()

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.