首先分析亂碼的情況
1.寫入資料庫時作為亂碼寫入;
2.查詢結果以亂碼返回;
究竟在發生亂碼時是哪一種情況呢?
我們先在mysql 命令列下輸入 show variables like '%char%'; 查看mysql 字元集設定情況:
在查詢結果中可以看到mysql 資料庫系統中用戶端、資料庫連接、資料庫、檔案系統、查詢結果、伺服器、系統的字元集設定在這裡,檔案系統字元集是固定的,系統、伺服器的字元集在安裝時確定,與亂碼問題無關亂碼的問題與用戶端、資料庫連接、資料庫、查詢結果的字元集設定有關.
*註:用戶端是看訪問mysql 資料庫的方式,通過命令列訪問,命令列視窗就是用戶端,通過JDBC 等串連訪問,程式就是用戶端.
我們在向mysql 寫入中文資料時,在用戶端、資料庫連接、寫入資料庫時分別要進行編碼轉換
在執行查詢時,在返回結果、資料庫連接、用戶端分別進行編碼轉換
現在我們應該清楚,亂碼發生在資料庫、用戶端、查詢結果以及資料庫連接這其中一個或多個環節
接下來我們來解決這個問題
在登入資料庫時,我們用mysql --default-character-set=字元集-u root -p 進行串連,這時我們再用show variables like '%char%';命令查看字元集設定情況,可以發現用戶端、資料庫連接、查詢結果的字元集已經設定成登入時選擇的字元集了
如果是已經登入了,可以使用set names 字元集;命令來實現上述效果,等同於下面的命令:
set character_set_client = 字元集
set character_set_connection = 字元集
set character_set_results = 字元集
如果是通過JDBC 串連資料庫,可以這樣寫URL:
URL=jdbc:mysql://localhost:3306/abs?useUnicode=true&characterEncoding=字元集
JSP 頁面等終端也要設定相應的字元集
資料庫的字元集可以修改mysql 的啟動配置來指定字元集,也可以在create database 時加上default character set 字元集來強制設定database 的字元集,通過這樣的設定,整個資料寫入讀出流程中都統一了字元集,就不會出現亂碼了
為什麼從命令列直接寫入中文不設定也不會出現亂碼?
可以明確的是從命令列下,用戶端、資料庫連接、查詢結果的字元集設定沒有變化,輸入的中文經過一系列轉碼又轉回初始的字元集,我們查看到的當然不是亂碼,但這並不代表中文在資料庫裡被正確作為中文字元儲存
舉例來說,現在有一個utf8 編碼資料庫,用戶端串連使用GBK 編碼,connection 使用預設的ISO8859-1(也就是mysql 中的latin1),我們在用戶端發送“中文”這個字串,用戶端將發送一串GBK 格式的二進位碼connection 層,connection 層以ISO8859-1 格式將這段二進位碼發送給資料庫,資料庫將這段編碼以utf8 格式儲存下來,我們將這個欄位以utf8格式讀取出來,肯定是得到亂碼,也就是說中文資料在寫入資料庫時是以亂碼形式儲存的,在同一個用戶端進行查詢操作時,做了一套和寫入時相反的操作,錯誤的utf8 格式二進位碼又被轉換成正確的GBK 碼並正確顯示出來。