vbscript指令碼用二進位方式讀寫檔案

來源:互聯網
上載者:User

  在項目中遇到這樣的問題,程式中需要將用 Adodb.Stream產生的utf-8格式的csv檔案匯入mysql資料庫中,當使用load data infile命令匯入資料庫以後,匯入的表中的第一行第一列的資料總是有一個問號,而匯入前用文字編輯器開啟看不出有什麼問題,經過調查最後發現檔案的開始處有三個位元組不可見的字元,用ultraEdit的16進位編輯方式可以看到是EF BB BF三個位元組(注意,一定要用版本高一點的ue才可以看到utf-8檔案正確的格式,最初我用ue 10.2版本看到的一直是FFFE兩個位元組,被老版本的給迷惑了。後來用ue的14.2版本才可以看到正確的格式。),查了些資料才知道這是utf-8檔案的bom資訊,utf-8的檔案分有bom和無bom的兩種,Adodb.Stream產生的檔案是有bom的,而在匯入資料庫時,這三個字元被當作一般字元插入表中,所以造成了不想要的錯誤結果。
    於是想辦法解決這個問題,由於utf-8格式的檔案,它的儲存順序與編碼順序是一致的,所以有bom和無bom格式的區別就是多了EF BB BF這三個位元組,只要我們用二進位方式讀取檔案,跳過前三個位元組就可以去掉這個bom了。要二進位方式操作檔案,還是只能使用Adodb.Stream對象,寫了個簡單的測試例子如下:
Set stm = CreateObject("Adodb.Stream")<br />stm.Type = 1<br />stm.Open<br />stm.LoadFromFile "e:/tmp/apachelog.txt"<br />stm.Position = 3<br />byteArr = stm.Read(-1)<br />stm.Close<br />stm.Open<br />stm.Write byteArr<br />stm.SaveToFile "e:/tmp/apachelog22.txt", 2<br />stm.Flush<br />stm.Close
http://blog.csdn.net/zmxj/archive/2009/02/27/3943742.aspx
操作二進位檔案時,要注意type屬性一定要設為1,就是二進位方式,否則,read方法會出錯。Position屬性值設為3,就是不讀取前三個位元組,read方法返回的是位元組數組,如果你想驗證前三個位元組的內容,可以先不用設定Position屬性,打個斷點,就可以看到數組中的內容,前三個位元組EF BB BF的十進位值為239,187,191。例子中,apachelog22.txt為操作後的檔案,可以用十六進位方式開啟兩個檔案對比一下是否正確。

關於utf-8的bom,已經二進位檔案操作可以參考:

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://www.paulsadowski.com/WSH/getremotebinaryfile.htm

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.