今天遇到這樣一個bug:用戶端POST到伺服器的一段資料導致伺服器端發生未知異常。伺服器端確認是編碼轉換錯誤。於是截取網路資料包進行分析,發現用戶端POST的json資料中包含下面一段(hex形式):
複製代碼 代碼如下:
... 61 64 20 b7 20 52 69 63 ...
問題就出在這個b7上。查閱Unicode代碼錶後發現,U+00b7是MIDDLE DOT,它的UTF-8表現形式應該是c2 b7,但為何用戶端發送的資料中它變成了b7?
由於系統使用了ormlite、gson和async-http幾個庫,於是逐一排查。最後發現原來是向伺服器發送資料時沒有指定文字編碼,導致async-http(實際是apache common http client)將資料以ISO-8559-1格式發送,U+00b7被編碼成b7,然後伺服器試圖使用UTF-8解碼時發生錯誤。
出錯的程式碼片段如下:
複製代碼 代碼如下:
Gson gson = new Gson();
String json = gson.toJson(data);
StringEntity entity = new StringEntity(json);
httpClient.post(context, url, entity, "application/json", new TextHttpResponseHandler() ... );
第三行new StringEntity(json)時沒有指定編碼導致錯誤。改正後如下:
複製代碼 代碼如下:
Gson gson = new Gson();
String json = gson.toJson(data);
StringEntity entity = new StringEntity(json, "utf-8");
httpClient.post(context, url, entity, "application/json;charset=utf-8", new TextHttpResponseHandler() ... );