一段網上java常見escape和unescape方法的BUG

來源:互聯網
上載者:User

標籤:

escape編碼和unescape編碼,就是將一個字元轉換為16進位unicode編碼,前面加%字元進行標識。

此處不再多做解釋,參考這裡:http://www.jb51.net/article/23657.htm。

原本是js的一個方法,後來被轉成java方法。具體參考這裡 http://blog.sina.com.cn/s/blog_4bb52a160100d9tm.html ,是被程式員們copy和paste最多的通用代碼。

先看一下escape源碼:

/**
* 實現js前台的escape()函數
*
* @param src
* @return
*/
public static String escape(String src) {
int i;
char j;
StringBuffer tmp = new StringBuffer();
tmp.ensureCapacity(src.length() * 6);
for (i = 0; i < src.length(); i++) {
j = src.charAt(i);--字元轉換為int值
if (Character.isDigit(j) || Character.isLowerCase(j) || Character.isUpperCase(j))
tmp.append(j);--1.如果是數字或者字母,直接使用
else if (j < 256) {
tmp.append("%");--2.如果在[16-255],則加%首碼
if (j < 16)
tmp.append("0");--3.如果字元編碼<16,則前面加%0首碼,(補0以使編碼2個字元寬度)
tmp.append(Integer.toString(j, 16));
} else {
tmp.append("%u");
tmp.append(Integer.toString(j, 16));--4.其他編碼全部以%u為首碼
        }
}
return tmp.toString();
}

再看一下unescap方法:

public static String unescape(String src) {
StringBuffer tmp = new StringBuffer();
tmp.ensureCapacity(src.length());
int lastPos = 0, pos = 0;
char ch;
while (lastPos < src.length()) {
pos = src.indexOf("%", lastPos);--查%號
if (pos == lastPos) {
if (src.charAt(pos + 1) == ‘u‘) {
ch = (char) Integer.parseInt(src.substring(pos + 2, pos + 6), 16);//5--遇到%u,則讀取後面的4個寬度字元,進行解碼
                tmp.append(ch);
lastPos = pos + 6;
} else {
ch = (char) Integer.parseInt(src.substring(pos + 1, pos + 3), 16);//6--其他%,則讀取2個寬度[0-255]的十六進展編碼,進行解碼
tmp.append(ch);
lastPos = pos + 3;
}
} else {
if (pos == -1) {
tmp.append(src.substring(lastPos));
lastPos = src.length();
} else {
tmp.append(src.substring(lastPos, pos));
lastPos = pos;
}
}
}
return tmp.toString();
}

代碼邏輯很簡單,分別解析了2寬度[0-255]和4寬度[4096-65535]的字元。

可是有2個問題:3寬度[256-4095]的字元存不存在?4字元以上的寬度存不存在?如果存在,這段代碼就存在嚴重BUG,會導致解析失敗。

先說第一個問題:

東亞語言及大部分語言unicode編碼轉換為16進位後都佔4個寬度,但並不意味3寬度字元不存在。比如百度百科瑜伽的印第安語:???,3個字元,轉換16進位後分別佔3個寬度。%u92f%u94b%u917,對此類字元上述代碼就會unescape失敗。

解決辦法保證產生的>255的字元編碼,有4個寬度。

紅色注釋4處的代碼修改為:

if(j<4096){    tmp.append(0)}tmp.append(Integer.toString(j, 16));--4.其他編碼全部以%u為首碼

或者

tmp.append(String.format("%04x",j))

第二個問題:

十六進位4寬度代表2個位元組。目前unicode的規範是ucs-2,即所有字元都以雙位元組儲存。所以代碼是可以搞定的。如果後續升級到ucs-4,甚至ucs-8,這段代碼就肯定有問題了。不過,那應該是N年以後的事情了。ucs-2足以滿足當前大部分情境。

 

一段網上java常見escape和unescape方法的BUG

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.