文字檔和二進位檔案的區別

來源:互聯網
上載者:User

首先,任一檔案本身並沒有嚴格意義上的文字檔或二進位檔案的區別 —— 一個檔案既可以文本方式開啟,也可以以二進位方式開啟,而所謂文字檔和二進位檔案是開啟檔案上的區別。但在實際使用中,一般將採用ASCII碼及其他可理解字元集儲存的檔案被稱為文字檔,且通常以文本方式開啟,如平文字檔(*.txt),C來源程式檔案,HTML超文本,XML等;除此之外的其他檔案都稱為二進位檔案,如Word檔案DOC,圖象格式檔案JPG。

其次,文字檔和二進位檔案的區別只是對DOS和Windows系統來說的,對Unix及其他動作系統並沒有這種區分(它們統一都是二進位檔案)。

那麼,為什麼還要區分兩種方式呢? 這是因為這兩種方式在讀寫檔案時的操作是不一樣的。   

二進位方式很簡單,讀檔案時,會原封不動的讀出檔案的全部內容,寫的時候,也是把內存緩衝區的內容原封不動的寫到檔案中。   

而文本方式就不一樣了,在讀檔案時,會將斷行符號分行符號“\r\n”(0x0D 0x0A)全部轉換成分行符號“\n”(0x0A),並且當遇到結束符CTRLZ(0x1A)時,就認為檔案已經結束。相應的,寫檔案時,會將所有的“\n”(0x0A)換成“\r\n”(0x0D 0x0A)。 所以,若使用文本方式開啟二進位檔案時,就很容易出現檔案讀不完整,或內容不對的錯誤。即使是用文本方式開啟文字檔,也要謹慎使用,比如複製檔案,就不應該使用文本方式。   

如上文已提到,DOS和Windows系統使用CRLF(0x0D 0x0A)雙位元組作為文字檔分行符號,而Unix文字檔的分行符號只有一個位元組LF(0x0A)為。在C語言中,也是以LF即'\n'為分行符號。   

由於DOS/Windows定義的分行符號和C語言的不一致,C語言的標準輸入輸出函數適行讀寫文字檔時,就適行了CRLF->LF的轉換。而Unix的定義和C語言的是一樣的,就不必轉換了。   

參考:http://hi.baidu.com/hyredsnow/blog/item/aa236a3af8999cd2d562258

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.