程式編碼一般分幾種情況:
1、源碼檔案編碼
2、接收外部內容的編碼
3、運行環境編碼
4、作業系統編碼
首先源碼檔案的編碼,可以通過在ruby檔案的頭部添加一行申明即可,這樣所有在源碼裡面出現的字元都儲存為指定的編碼:
# -*- coding:utf-8 -*-
接收的內容或讀取外部檔案時,可能不確定是什麼編碼,這個時候就可以對外部接收的字元或內容進行轉碼。
string.encode('utf-8') #把字串轉成utf-8模式require "nkf"string= NKF.nkf("-w", string) ##同樣把字串轉成utf-8,其值-w參數代表utf-8
運行環境的編碼,通常預設和作業系統的編碼是一致的,但是也可以設定為指定的編碼,這樣保持所有編碼一致性。ruby中設定運行環境編碼方式如下,即啟動ruby時添加encoding參數並指定編碼格式。
ruby --encoding=utf-8
作業系統編碼,通常中文的都是GBK的;所以如果在程式裡用到系統中的取值時用到中文的地方需要注意;比如:中文名字的目錄;如果你的運行環境是utf-8的,讀取中文目錄下的檔案時,需要把路徑字串轉碼成gbk再去讀,否則會報錯。
在這裡有一個問題:
ruby x:/path/to/ruby/中文/file.rb #可以成功找到rb檔案,此時運行環境編碼為gbk
ruby --encoding=utf-8 x:/path/to/ruby/中文/file.rb #不能找到rb檔案,提示編碼錯誤,因為此時運行環境編碼為utf-8,而傳遞過去的路徑參數為gbk編碼。
而如果運行環境為gbk時,而源碼為utf-8編碼,則在有些地方處理中文等字串時會提示編碼不相容,因為有些時候字元編碼處理的預設編碼就是運行環境的編碼。
ruby x:/path/to/ruby/english/file.rb #可以找到,運行環境同源碼設定編碼
所以運行環境的編碼應該有如下優先順序:是否有encoding參數指定==>第一次處理非中文時的字元編碼格式