用JavaScript計算字串佔用位元組數

來源:互聯網
上載者:User
用JavaScript計算字串佔用位元組數

最近和JavaScript糾纏上了。

遇到這麼一個問題,資料庫的字元集為UTF-8的,要在頁面上使用JavaScript驗證輸入的文本用UTF-8儲存時佔用位元組長度。JavaScript的String對象有length屬性,但是這個計算的是字元數,不是位元組數(問題總是翻來覆去的,記得當年玩Delphi的時候,還得寫程式計算字串的字元數,因為Delphi中String的length是位元組數...)。偷懶一點的辦法是將驗證代碼中最大長度設定為資料庫中對應欄位的長度的1/3,但是這樣準確來說有點不合適。

所以想辦法在JavaScript中判斷在UTF-8下儲存的String的位元組數,在網上找到很多關於Unicode介紹的文檔,最重要的是字元編碼數值對應的儲存長度:

UCS-2編碼(16進位) UTF-8 位元組流(二進位) 

0000 - 007F 0xxxxxxx (1位元組)

0080 - 07FF 110xxxxx 10xxxxxx (2位元組)

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (3位元組)

 

於是代碼如下:

function mbStringLength(s) {

        var totalLength = 0;

        var i;

        var charCode;

        for (i = 0; i < s.length; i++) {

          charCode = s.charCodeAt(i);

          if (charCode < 0x007f) {

            totalLength = totalLength + 1;

          } else if ((0x0080 <= charCode) && (charCode <= 0x07ff)) {

            totalLength += 2;

          } else if ((0x0800 <= charCode) && (charCode <= 0xffff)) {

            totalLength += 3;

          }

        }

        //alert(totalLength);

        return totalLength;

      }

 

實際上,0x0080到0x07ff之間的字元很少會在實際使用者輸入中用到。

 

參考文檔:

程式員趣味讀物:談談Unicode編碼 http://www.lihuasoft.net/article/show.php?id=2778

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.