讓vim認識更多的編碼。

最後更新：2018-12-06 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

如果當前locale為utf-8,則用vim開啟一個gb2312編碼的檔案，會顯示為亂碼。用gedit開啟卻正常顯示，難道vim還不如gedit？識別編碼這種小問題對vim來說應該是小菜一碟吧。下面便是解決方案：

編輯~/,vimrc，加入如下三行：set encoding=utf-8
set fileencodings=utf-8,gb2312,gb18030,gbk,ucs-bom,cp936,latin1 " 如果你要開啟的檔案編碼不在此列，那就添加進去
set termencoding=utf-8

授之以魚，不如授之以漁。下面是轉載的一篇文章，其中詳細敘述了vim編碼的問題。
轉載自：http://dawnh.net/software/59/vim-charset-encode/

vim中編輯不同編碼的檔案時需要注意的一些地方

此文講解的是vim編輯多位元組編碼文檔（中文）所要瞭解的一些基礎知識，注意其沒有涉及gvim，純指字元終端下的vim。
vim編碼方面的基礎知識：

1，存在3個變數：
encoding—-該選項使用於緩衝的文本(你正在編輯的檔案)，寄存器，Vim 指令檔等等。你可以把 ‘encoding’ 選項當作是對 Vim 內部運行機制的設定。
fileencoding—-該選項是vim寫入檔案時採用的編碼類別型。
termencoding—-該選項代表輸出到客戶終端（Term）採用的編碼類別型。
2，此3個變數的預設值：
encoding—-與系統當前locale相同，所以編輯檔案的時候要考慮當前locale，否則要設定的東西就比較多了。
fileencoding—-vim開啟檔案時自動辨認其編碼，fileencoding就為辨認的值。為空白則儲存檔案時採用encoding的編碼，如果沒有修改encoding，那值就是系統當前locale了。
termencoding—-預設空值，也就是輸出到終端不進行編碼轉換。

由此可見，編輯不同編碼檔案需要注意的地方不僅僅是這3個變數，還有系統當前locale和、檔案本身編碼以及自動編碼識別、客戶運行vim的終端所使用的編碼類別型3個關鍵點，這3個關鍵點影響著3個變數的設定。
如果有人問：為什麼我用vim開啟中文文檔的時候出現亂碼？
答案是不確定的，原因上面已經講了，不搞清楚這3個關鍵點和這3個變數的設定值，出現亂碼是正常的，倒是不出現亂碼那反倒是湊巧的。

再來看一下常見情況下這三個關鍵點的值以及在這種情況下這3個變數的值：
1，locale—-目前大部分Linux系統已經將utf-8作為預設locale了，不過也有可能不是，例如有些系統使用中文locale
zh_CN.GB18030。在locale為utf-8的情況下，啟動vim後encoding將會設定為utf-8，這是相容性最好的方式，因為內部
處理使用utf-8的話，無論外部儲存編碼為何都可以進行無缺損轉換。locale決定了vim內部處理資料的編碼，也就是encoding。
2，檔案的編碼以及自動編碼識別—-這方面牽扯到各種編碼的規則，就不一一細講了。但需要明白的是，檔案編碼類別型並不是儲存在檔案內的，也就是說沒有任何
描述性的欄位來記錄文檔是何種編碼類別型的。因此我們在編輯文檔的時候，要麼必須知道這文檔儲存時是以什麼編碼儲存的，要麼通過另外的一些手段來斷定編碼類別
型，這另外的手段，就是通過某些編碼的碼錶特徵來斷定，例如每個字元佔用的位元組數，每個字元的ascii值是否都大於某個欄位來斷定這個檔案屬於何種編
碼。這種方式vim也使用了，這就是vim的自動編碼識別機制了。但這種機制由於編碼各式各樣，不可能每種編碼都有顯著的特徵來辨別，所以是不可能
100%準確的。對於我們GB2312編碼，由於其中文是使用了2個acsii值高於127的字元組成漢字字元的，因此不可能把gb2312編碼的檔案與
latin1編碼區分開來，因此自動識別編碼的機制對於gb2312是不成功的，它只會將檔案辨識為latin1編碼。此問題同樣出現在gbk，big5
上等。因此我們在編輯此類文檔時，需要手工設定encoding和fileencoding。如果文檔編碼為utf-8時，一般vim都能自動識別正確的
編碼。

3，客戶運行vim的終端所使用的編碼類別型—-同第二條一樣，這也是一個比較難以斷定的關鍵點。第二個關鍵點決定著從檔案讀取內容和寫入內容到檔案
時使用的編碼，而此關鍵點則決定vim輸出內容到終端時使用的編碼，如果此編碼類別型和終端認為它收到的資料的編碼類別型不同，則又會產生亂碼問題。在
linux本地X環境下，一般終端都認為其接收的資料的編碼類別型和系統locale類型相符，因此不需關心此方面是否存在問題。但如果牽涉到遠程終端，例
如ssh登入伺服器，則問題就有可能出現了。例如從1台locale為GB2310的系統（稱作客戶機）ssh到locale為utf-8的系統（稱作服
務器）並開啟vim編輯文檔，在不加任何改動的情況下，伺服器返回的資料為utf-8的，但客戶機認為伺服器返回的資料是gb2312的，按照
gb2312來解釋資料，則肯定就是亂碼了，這時就需要設定termencoding為gb2312來解決這個問題。此問題更多出現在我們的
windows
desktop機遠程ssh登入伺服器的情況下，這裡牽扯到不同系統的編碼轉換問題。所以又與windows本身以及ssh用戶端有很大相關性。在
windows下存在兩種編碼類別型的軟體，一種是本身就為unicode編碼方式編寫的軟體，一種是ansi軟體，也就是程式處理資料直接採用位元組流，不
關心編碼。前一種程式可以在任何語言的windows上正確顯示多國語言，而後一種則編寫在何種語言的系統上則只能在何種語言的系統上顯示正確的文字。對
於這兩種類型的程式，我們需要區別對待。以ssh用戶端為例，我們使用的putty是unicode軟體，而secure CRT則是ansi
軟體。對於前者，我們要正確處理中文，只要保證vim輸出到終端的編碼為utf-8即可，就是termencoding=utf-8。但對於後者，一方面
我們要確認我們的windows系統預設字碼頁為cp936（中文windows預設值），另一方面要確認vim設定的termencoding=
cp936。

最後來看看處理中文文檔最典型的幾種情況和設定方式：

1，系統locale是utf-8（很多linux系統預設的locale形式），編輯的文檔是GB2312或GBK形式的（Windows記事本
預設儲存形式，大部分編輯器也預設儲存為這個形式，所以最常見），終端類型utf-8（也就是假定用戶端是putty類的unicode軟體）
則vim開啟文檔後，encoding=utf-8（locale決定的），fileencoding=latin1（自動編碼判斷機制不準導致的），termencoding=空（預設無需轉換term編碼），顯示檔案為亂碼。
解決方案1：首先要修正fileencoding為cp936或者euc-cn（二者一樣的，只不過叫法不同），注意修正的方法不是:set
fileencoding=cp936，這隻是將檔案儲存為cp936，正確的方法是重新以cp936的編碼方式負載檔案為:edit
++enc=cp936，可以簡寫為:e ++enc=cp936。
解決方案2：臨時改變vim啟動並執行locale環境，方法是以LANG=zh_CN vim
abc.txt的方式來啟動vim，則此時encoding=euc-cn（locale決定的），fileencoding=空（此locale下檔案
編碼自動判別功能不啟用，所以fileencoding為檔案本身編碼方式不變，也就是euc-cn），termencoding=空（預設值，為空白則等
於encoding）此時還是亂碼的，因為我們的ssh終端認為接受的資料為utf-8，但vim發送資料為euc-cn，所以還是不對。此時再用命令:
set termencoding=utf-8將終端資料輸出為utf-8，則顯示正常。

2，情況與1基本相同，只是使用的ssh軟體為secure CRT類ansi類軟體。

vim開啟文檔後，encoding=utf-8（locale決定的），fileencoding=latin1（自動編碼判斷機制不準導致的），termencoding=空（預設無需轉換term編碼），顯示檔案為亂碼。

解決方案1：首先要保證運行secure CRT的windows機器的預設字碼頁為CP936，這一點中文windows已經是預設設定了。其他的與上面方案1相同，只是要增加一步，:set termencoding=cp936

解決方案2：與上面方案2類似，不過最後一步修改termencoding省略即可，在此情況下需要的修改最少，只要以locale為zh_CN開
啟vim，則encoding=euc-cn，fileencoding和termencoding都為空白即為encoding的值，是最理想的一種情
況。

可見理解這3個關鍵點和3個參數的意義，對於編碼問題有很大助力，以後就可以隨心所欲的處理文檔了，同時不僅僅是應用於vim，在其他需要編碼轉換的環境裡，都可以應用類似的思路來處理問題解決問題。

最後推薦一款功能強大的windows下的ssh用戶端—-xshell，它具有類似secure CRT一樣的多tab
的ssh視窗的能力，但最為方便的是這款工具還有改變Term編碼的功能，這樣我們就可以不用頻繁調整termencoding，只需在ssh軟體裡切換
編碼即可，這是我用過的最為方便的ssh工具。它是商業軟體，但非註冊使用者使用沒有任何限制，只是30天試用期超出後會每次啟動都提示註冊，對於功能沒有
絲毫影響。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More