標籤:
escape編碼和unescape編碼,就是將一個字元轉換為16進位unicode編碼,前面加%字元進行標識。
此處不再多做解釋,參考這裡:http://www.jb51.net/article/23657.htm。
原本是js的一個方法,後來被轉成java方法。具體參考這裡 http://blog.sina.com.cn/s/blog_4bb52a160100d9tm.html ,是被程式員們copy和paste最多的通用代碼。
先看一下escape源碼:
/**
* 實現js前台的escape()函數
*
* @param src
* @return
*/
public static String escape(String src) {
int i;
char j;
StringBuffer tmp = new StringBuffer();
tmp.ensureCapacity(src.length() * 6);
for (i = 0; i < src.length(); i++) {
j = src.charAt(i);--字元轉換為int值
if (Character.isDigit(j) || Character.isLowerCase(j) || Character.isUpperCase(j))
tmp.append(j);--1.如果是數字或者字母,直接使用
else if (j < 256) {
tmp.append("%");--2.如果在[16-255],則加%首碼
if (j < 16)
tmp.append("0");--3.如果字元編碼<16,則前面加%0首碼,(補0以使編碼2個字元寬度)
tmp.append(Integer.toString(j, 16));
} else {
tmp.append("%u");
tmp.append(Integer.toString(j, 16));--4.其他編碼全部以%u為首碼
}
}
return tmp.toString();
}
再看一下unescap方法:
public static String unescape(String src) {
StringBuffer tmp = new StringBuffer();
tmp.ensureCapacity(src.length());
int lastPos = 0, pos = 0;
char ch;
while (lastPos < src.length()) {
pos = src.indexOf("%", lastPos);--查%號
if (pos == lastPos) {
if (src.charAt(pos + 1) == ‘u‘) {
ch = (char) Integer.parseInt(src.substring(pos + 2, pos + 6), 16);//5--遇到%u,則讀取後面的4個寬度字元,進行解碼
tmp.append(ch);
lastPos = pos + 6;
} else {
ch = (char) Integer.parseInt(src.substring(pos + 1, pos + 3), 16);//6--其他%,則讀取2個寬度[0-255]的十六進展編碼,進行解碼
tmp.append(ch);
lastPos = pos + 3;
}
} else {
if (pos == -1) {
tmp.append(src.substring(lastPos));
lastPos = src.length();
} else {
tmp.append(src.substring(lastPos, pos));
lastPos = pos;
}
}
}
return tmp.toString();
}
代碼邏輯很簡單,分別解析了2寬度[0-255]和4寬度[4096-65535]的字元。
可是有2個問題:3寬度[256-4095]的字元存不存在?4字元以上的寬度存不存在?如果存在,這段代碼就存在嚴重BUG,會導致解析失敗。
先說第一個問題:
東亞語言及大部分語言unicode編碼轉換為16進位後都佔4個寬度,但並不意味3寬度字元不存在。比如百度百科瑜伽的印第安語:???,3個字元,轉換16進位後分別佔3個寬度。%u92f%u94b%u917,對此類字元上述代碼就會unescape失敗。
解決辦法保證產生的>255的字元編碼,有4個寬度。
紅色注釋4處的代碼修改為:
if(j<4096){ tmp.append(0)}tmp.append(Integer.toString(j, 16));--4.其他編碼全部以%u為首碼
或者
tmp.append(String.format("%04x",j))
第二個問題:
十六進位4寬度代表2個位元組。目前unicode的規範是ucs-2,即所有字元都以雙位元組儲存。所以代碼是可以搞定的。如果後續升級到ucs-4,甚至ucs-8,這段代碼就肯定有問題了。不過,那應該是N年以後的事情了。ucs-2足以滿足當前大部分情境。
一段網上java常見escape和unescape方法的BUG