首先,任一檔案本身並沒有嚴格意義上的文字檔或二進位檔案的區別 —— 一個檔案既可以文本方式開啟,也可以以二進位方式開啟,而所謂文字檔和二進位檔案是開啟檔案上的區別。但在實際使用中,一般將採用ASCII碼及其他可理解字元集儲存的檔案被稱為文字檔,且通常以文本方式開啟,如平文字檔(*.txt),C來源程式檔案,HTML超文本,XML等;除此之外的其他檔案都稱為二進位檔案,如Word檔案DOC,圖象格式檔案JPG。
其次,文字檔和二進位檔案的區別只是對DOS和Windows系統來說的,對Unix及其他動作系統並沒有這種區分(它們統一都是二進位檔案)。
那麼,為什麼還要區分兩種方式呢? 這是因為這兩種方式在讀寫檔案時的操作是不一樣的。
二進位方式很簡單,讀檔案時,會原封不動的讀出檔案的全部內容,寫的時候,也是把內存緩衝區的內容原封不動的寫到檔案中。
而文本方式就不一樣了,在讀檔案時,會將斷行符號分行符號“\r\n”(0x0D 0x0A)全部轉換成分行符號“\n”(0x0A),並且當遇到結束符CTRLZ(0x1A)時,就認為檔案已經結束。相應的,寫檔案時,會將所有的“\n”(0x0A)換成“\r\n”(0x0D 0x0A)。 所以,若使用文本方式開啟二進位檔案時,就很容易出現檔案讀不完整,或內容不對的錯誤。即使是用文本方式開啟文字檔,也要謹慎使用,比如複製檔案,就不應該使用文本方式。
如上文已提到,DOS和Windows系統使用CRLF(0x0D 0x0A)雙位元組作為文字檔分行符號,而Unix文字檔的分行符號只有一個位元組LF(0x0A)為。在C語言中,也是以LF即'\n'為分行符號。
由於DOS/Windows定義的分行符號和C語言的不一致,C語言的標準輸入輸出函數適行讀寫文字檔時,就適行了CRLF->LF的轉換。而Unix的定義和C語言的是一樣的,就不必轉換了。
參考:http://hi.baidu.com/hyredsnow/blog/item/aa236a3af8999cd2d562258