在項目中遇到這樣的問題,程式中需要將用 Adodb.Stream產生的utf-8格式的csv檔案匯入mysql資料庫中,當使用load data infile命令匯入資料庫以後,匯入的表中的第一行第一列的資料總是有一個問號,而匯入前用文字編輯器開啟看不出有什麼問題,經過調查最後發現檔案的開始處有三個位元組不可見的字元,用ultraEdit的16進位編輯方式可以看到是EF BB BF三個位元組(注意,一定要用版本高一點的ue才可以看到utf-8檔案正確的格式,最初我用ue 10.2版本看到的一直是FFFE兩個位元組,被老版本的給迷惑了。後來用ue的14.2版本才可以看到正確的格式。),查了些資料才知道這是utf-8檔案的bom資訊,utf-8的檔案分有bom和無bom的兩種,Adodb.Stream產生的檔案是有bom的,而在匯入資料庫時,這三個字元被當作一般字元插入表中,所以造成了不想要的錯誤結果。
於是想辦法解決這個問題,由於utf-8格式的檔案,它的儲存順序與編碼順序是一致的,所以有bom和無bom格式的區別就是多了EF BB BF這三個位元組,只要我們用二進位方式讀取檔案,跳過前三個位元組就可以去掉這個bom了。要二進位方式操作檔案,還是只能使用Adodb.Stream對象,寫了個簡單的測試例子如下:
Set stm = CreateObject("Adodb.Stream")<br />stm.Type = 1<br />stm.Open<br />stm.LoadFromFile "e:/tmp/apachelog.txt"<br />stm.Position = 3<br />byteArr = stm.Read(-1)<br />stm.Close<br />stm.Open<br />stm.Write byteArr<br />stm.SaveToFile "e:/tmp/apachelog22.txt", 2<br />stm.Flush<br />stm.Close
http://blog.csdn.net/zmxj/archive/2009/02/27/3943742.aspx
操作二進位檔案時,要注意type屬性一定要設為1,就是二進位方式,否則,read方法會出錯。Position屬性值設為3,就是不讀取前三個位元組,read方法返回的是位元組數組,如果你想驗證前三個位元組的內容,可以先不用設定Position屬性,打個斷點,就可以看到數組中的內容,前三個位元組EF BB BF的十進位值為239,187,191。例子中,apachelog22.txt為操作後的檔案,可以用十六進位方式開啟兩個檔案對比一下是否正確。
關於utf-8的bom,已經二進位檔案操作可以參考:
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
http://www.paulsadowski.com/WSH/getremotebinaryfile.htm