關於xml編碼問題在VB,PHP,JAVA下的解決方案

來源:互聯網
上載者:User
xml|編碼|解決|問題     最近碰到一個項目,需要將申報檔案存成XML的格式,編碼問題著實讓我頭疼了一會。現在全部統一成UTF-8編碼。具體在各種語言下的操作

  這裡,我用DOM進行XML解析,應為它簡單。

  1 客戶首先使用VB進行編輯表單,產生一個apply.xml檔案。

  在VB中,使用MSXML 4.0。如果不設定編碼方式,儲存的時候,檔案預設就是UTF-8編碼

    Set dom = CreateDOM
    Set node = dom.createProcessingInstruction("xml", "version='1.0'")
    dom.appendChild node
    Set node = Nothing

  2 接下來,客戶將這個XML通過Web上傳到伺服器

  在PHP中,XMLDOM只支援UTF-8作為預設編碼。所以產生的XML檔案,上傳以後可以直接解析這個檔案,獲得一些資訊

  if (!$dom = domxml_open_mem($content)) {
      $t->assign('msg', "檔案解析錯誤!");
      $t->render('noavailable.html', PAGE_TITLE, 'wrap.html');
      exit;
    }

  接下來,要將這個檔案存到資料庫裡面,因為資料庫使用MS Sql Server,它不支援UTF-8的資料結構,所以將整個檔案以二進位的方式存到資料庫裡面,這裡讓我搞了半天的就是二進位檔案的存放方式,如果是mysql,那不需要做任何轉換就可以直接存了,但是mssql不行,原因是:

This is because the MSSQL parser makes a clear distinction between binary an character constants. You can therefore not easilly insert binary data with "column = '$data'" syntax like in MySQL and others.

The MSSQL documentation states that binary constants should be represented by their unquoted hexadecimal byte-string. That is.. to set the binary column "col" to contain the bytes 0x12, 0x65 and 0x35 you shold do "col = 0x126535" in you query.

  具體操作如下:

    //讀取上傳的檔案
    $original = $_FILES['content']['name'];
      if (!empty($original)) {
          if ($_FILES['content']['type'] == "text/xml") {
           $filename = $_FILES['content']['tmp_name'];
            $handle = fopen($filename, "rb");
            $originalcontent = fread($handle, filesize($filename));
           
            fclose($handle);
           }
      } //end  if(!empty($original)) 

$originalcontent = unpack("H*hex", $originalcontent); //這步是關鍵

 $db->query("insert into ".TBL_SB_ONLINE_USER." (sb_id, user_id, username, sbmc, content, created_date) values ("
        .$newid.", "
        .$u.", "
        .$db->quote(stripslashes($name)).", "
        .$db->quote(stripslashes($sbmc)).", 0x"
        .$originalcontent['hex'].", "      //注意這裡,前面有0x
        ."'$now')");

  3 上傳之後,使用者也可以在網上對這個檔案進行線上編輯,這時需要將這個檔案從資料庫讀出,然後還原成UTF-8編碼,再進行解析。雖然我們上面使用了unpack,但讀出的時候不需要還原。

 $sb = $db->getRow('select sbmc, content from '.TBL_SB_ONLINE_USER." where sb_id = $sb_id");
 $originalcontent =$sb[content];

 if (!$dom = domxml_open_mem($originalcontent)) {
      $t->assign('msg', "檔案解析錯誤!");
      $t->render('noavailable.html', PAGE_TITLE, 'wrap.html',true);
      exit;
    }
   
    $context = xpath_new_context($dom);
   
    $xpath = $context->xpath_eval("//material/xm");
    $t->assign('xm',iconv("UTF-8","GBK",$xpath->nodeset[0]->get_content()));

  讀出的時候,mssql除了用於 SQL Server 的 Microsoft OLE DB 提供者和 SQL Server ODBC 驅動程式自動將 @@TEXTSIZE 設定為最大值 2 GB。其他的都是4096 (4 KB),所以用PHP訪問時候,務必將下面開啟mssql.textlimit = 2147483647
mssql.textsize = 2147483647

  4 後台用VB,要解析該函數需要添加以下代碼,用來將byte()轉換成utf-8編碼

Public Declare Function MultiByteToWideChar Lib "kernel32" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpMultiByteStr As Long, _
ByVal cchMultiByte As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long) As Long

Public Const CP_UTF8 = 65001

Public Function UTF8_Decode(bUTF8() As Byte) As String
Dim lRet As Long
Dim lLen As Long
Dim lBufferSize As Long
Dim sBuffer As String
Dim bBuffer() As Byte
lLen = UBound(bUTF8) + 1
If lLen = 0 Then Exit Function
lBufferSize = lLen * 2
sBuffer = String$(lBufferSize, Chr(0))
lRet = MultiByteToWideChar(CP_UTF8, 0, VarPtr(bUTF8(0)), lLen, StrPtr(sBuffer), lBufferSize)
If lRet <> 0 Then
sBuffer = Left(sBuffer, lRet)
End If
UTF8_Decode = sBuffer
End Function

  具體讀資料庫的操作是

   Dim varcontent() As Byte
    varfilesize = mrc.Fields("content").ActualSize
    varcontent = mrc.Fields("content").GetChunk(varfilesize)
    content = UTF8_Decode(varcontent)

    xmlDoc.async = False
    xmlDoc.resolveExternals = False
    xmlDoc.loadXML (content)
    If (xmlDoc.parseError.errorCode <> 0) Then
      Dim myErr
      Set myErr = xmlDoc.parseError
      MsgBox ("發生錯誤 " & myErr.reason)
    Else
      xmlDoc.setProperty "SelectionLanguage", "XPath"

  5 後台,在Java裡面就更好操作了,將讀出的資料變成byte[],然後轉換成UTF-8的字串。

  最後要說的是,PHP的確是一個非常強大的指令碼語言,如果開發PHP過程中遇到難以解決,google都不容易搜到的問題,大家直接上php.net的線上文檔,文檔裡面通常有很多好心人將自己的使用心得寫在上面,非常有協助。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。