Python編碼格式的指定方式,python編碼格式指定
參考自: http://python.jobbole.com/85852/, 原文探究的更深,有興趣的可以去看看。
簡介來講就是使用一種特殊的注釋來聲明編碼格式,如何判斷這種格式也用了很簡單粗暴有效辦法--Regex;Regex如下:
^[ \t\v]*#.*?coding[:=][ \t]*([-_.a-zA-Z0-9]+)
也就是說
# -*- coding:utf-8 -*-# coding=utf-8# -*- coding=utf-8 -*-
都可以。而第一種是Emacs推薦的寫法 - -。
而根據 ([-_.a-zA-Z0-9]+) 選出來的結果則去匹配相應的編碼方式,匹配編碼方式使用了Python內建的codecs模組。
用老方式來看看內建的協助文檔,help(codecs),唔,沒有任何有用的東西:
Help on module codecs:NAME codecs - codecs -- Python Codec Registry, API and helpers.FILE /usr/lib/python2.7/codecs.pyMODULE DOCS http://docs.python.org/library/codecsDESCRIPTION Written by Marc-Andre Lemburg (mal@lemburg.com). (c) Copyright CNRI, All Rights Reserved. NO WARRANTY.FUNCTIONS
再去連結那裡點開看看好了,“This module defines base classes for standard Python codecs (encoders and decoders) and provides access to the internal Python codec registry, which manages the codec and error handling lookup process. ”,意思是說這個模組就用來解碼和編碼的,提供了Python內部編碼方式的註冊,處理編碼還有錯誤資訊。
那在看看裡邊包含了什麼:
In [5]: dir(codecs) Out[5]: ['BOM', 'BOM32_BE', 'BOM32_LE', 'BOM64_BE', 'BOM64_LE', 'BOM_BE', 'BOM_LE', 'BOM_UTF16', 'BOM_UTF16_BE', 'BOM_UTF16_LE', 'BOM_UTF32', 'BOM_UTF32_BE', 'BOM_UTF32_LE', 'BOM_UTF8', 'BufferedIncrementalDecoder', 'BufferedIncrementalEncoder', 'Codec', 'CodecInfo', 'EncodedFile',
唔,一大堆函數,不細看了。
PS:再次感歎,官方文檔很贊。
然後,這種思考的方式很值得學習 - -。