檔案結束符EOF .

來源:互聯網
上載者:User

>> 關於檔案結束符EOF
EOF 是 End Of File 的縮寫。

在C語言中,它是在標準庫中定義的一個宏。

人們經常誤認為 EOF 是從檔案中讀取的一個字元(牢記)。其實,EOF 不是一個字元,它被定義為是 int 類型的一個負數(比如 -1)。EOF 也不是檔案中實際存在的內容。EOF 也不是只表示讀檔案到了結尾這一狀態(這種狀態可以用 feof() 來檢測),它還能表示 I/O 操作中的讀、寫錯誤(通常可以用 ferror() 來檢測)以及其它一些關聯操作的錯誤狀態。

一、getchar的兩點總結:
1.getchar是以行為單位進行存取的。
當用getchar進行輸入時,如果輸入的第一個字元為有效字元(即輸入不是檔案結束符EOF,Windows下為按鍵組合Ctrl+Z,Unix/Linux下為按鍵組合Ctrl+D),那麼只有當最後一個輸入字元為分行符號'/n'(也可以是檔案結束符EOF,EOF將在後面討論)時,getchar才會停止執行,整個程式將會往下執行。譬如下面程式段:

 

while((c =getchar())!=EOF){
    putchar(c);
}

 

執行程式,輸入:abc,然後斷行符號。則程式就會去執行puchar(c),然後輸出abc,這個地方不要忘了,系統輸出的還有一個斷行符號。然後可以繼續輸入,再次遇到分行符號的時候,程式又會把那一行的輸入的字元輸出在終端上。

對於getchar,肯定很多初學的朋友會問,getchar不是以字元為單位讀取的嗎?那麼,既然我輸入了第一個字元a,肯定滿足while迴圈(c = getchar()) != EOF的條件阿,那麼應該執行putchar(c)在終端輸出一個字元a。不錯,我在用getchar的時候也是一直這麼想的,但是程式就偏偏不著樣執行,而是必需讀到一個分行符號或者檔案結束符EOF才進行一次輸出。對這個問題的一個解釋是,在大師編寫C的時候,當時並沒有所謂終端輸入的概念,所有的輸入實際上都是按照檔案進行讀取的,檔案中一般都是以行為單位的。因此,只有遇到分行符號,那麼程式會認為輸入結束,然後採取執行程式的其他部分。同時,輸入是按照檔案的方式存取的,那麼要結束一個檔案的輸入就需用到EOF(Enf Of File). 這也就是為什麼getchar結束輸入退出時要用EOF的原因。
2.getchar()的傳回值一般情況下是字元,但也可能是負值,即返回EOF。

這裡要強調的一點就是,getchar函數通常返回終端所輸入的字元,這些字元系統中對應的ASCII值都是非負的。因此,很多時候,我們會寫這樣的兩行代碼:

 

char c;
c =getchar();

 

這樣就很有可能出現問題。因為getchar函數除了返回終端輸入的字元外,在遇到Ctrl+D(Linux下)即檔案結束符EOF時,getchar()的返回EOF,這個EOF在函數庫裡一般定義為-1。因此,在這種情況下,getchar函數返回一個負值,把一個負值賦給一個char型的變數是不正確的。為了能夠讓所定義的變數能夠包含getchar函數返回的所有可能的值,正確的定義方法如下(K&R C中特別提到了這個問題):

 

int c;
c =getchar();

 

二、EOF的兩點總結(主要指普通終端中的EOF)
1.EOF作為檔案結束符時的情況:

EOF雖然是檔案結束符,但並不是在任何情況下輸入Ctrl+D(Windows下Ctrl+Z)都能夠實現檔案結束的功能,只有在下列的條件下,才作為檔案結束符。
(1)遇到getcahr函數執行時,要輸入第一個字元時就直接輸入Ctrl+D,就可以跳出getchar(),去執行程式的其他部分;
(2)在前面輸入的字元為分行符號時,接著輸入Ctrl+D;
(3)在前面有字元輸入且不為分行符號時,要連著輸入兩次Ctrl+D,這時第二次輸入的Ctrl+D起到檔案結束符的功能,至於第一次的Ctrl+D的作用將在下面介紹。
其實,這三種情況都可以總結為只有在getchar()提示新的一次輸入時,直接輸入Ctrl+D才相當於檔案結束符。

2.EOF作為行結束符時的情況,這時候輸入Ctrl+D並不能結束getchar(),而只能引發getchar()提示下一輪的輸入。

這種情況主要是在進行getchar()新的一行輸入時,當輸入了若干字元(不能包含分行符號)之後,直接輸入Ctrl+D,此時的Ctrl+D並不是檔案結束符,而只是相當於分行符號的功能,即結束當前的輸入。以上面的程式碼片段為例,如果執行時輸入abc,然後Ctrl+D,程式輸出結果為:
abcabc

注意:第一組abc為從終端輸入的,然後輸入Ctrl+D,就輸出第二組abc,同時游標停在第二組字元的c後面,然後可以進行新一次的輸入。這時如果再次輸入Ctrl+D,則起到了檔案結束符的作用,結束getchar()。
如果輸入abc之後,然後斷行符號,輸入分行符號的話,則終端顯示為:
abc         //第一行,帶斷行符號
abc         //第二行
               //第三行

其中第一行為終端輸入,第二行為終端輸出,游標停在了第三行處,等待新一次的終端輸入。
從這裡也可以看出Ctrl+D和分行符號分別作為行結束符時,輸出的不同結果。
EOF的作用也可以總結為:當終端有字元輸入時,Ctrl+D產生的EOF相當於結束本行的輸入,將引起getchar()新一輪的輸入;當終端沒有字元輸入或者可以說當getchar()讀取新的一次輸入時,輸入Ctrl+D,此時產生的EOF相當於檔案結束符,程式將結束getchar()的執行。

 

【補充】本文第二部分中關於EOF的總結部分,適用於終端驅動處於一次一行的模式下。也就是雖然getchar()和putchar()確實是按照每次一個字元 進行的。但是終端驅動處於一次一行的模式,它的輸入只有到“/n”或者EOF時才結束,因此,終端上得到的輸出也都是按行的。
如果要實現終端在讀一個字元就結束輸入的話,下面的程式是一種實現的方法(參考《C專家編程》,略有改動)

/*Edit by Godbach
  CU Blog: http://blog.chinaunix.net/u/33048/
*/
#include<stdio.h>
#include<stdlib.h>

int
main(void)
{
    int c;
    /* 終端驅動處於普通的一次一行模式 */
    system("stty raw");
   
    /* 現在的終端驅動處於一次一個字元模式 */
    c =getchar();
    putchar();
   
    /* 終端驅動處又回到一次一行模式 */
     system("stty cooked");
   
    return 0;
}

編譯運行該程式,則當如入一個字元時,直接出處一個字元,然後程式結束。
由此可見,由於終端驅動的模式不同,造成了getchar()輸入結束的條件不一樣。普通模式下需要斷行符號或者EOF,而在一次一個字元的模式下,則輸入一個字元之後就結束了。

 

(1) 位元組的讀取
在正常的情況下, getc 以 unsigned char 的方式讀取檔案流, 擴張為一個整數,並返
回. 換言之, getc 從檔案流中取一個位元組, 並加上24個零,成為一個小於256的整數,
然後返回.

int c;
while ((c = fgetc (rfp))!= -1) // -1就是 EOF
fputc (c, wfp);

上面 fputc 中的 c 雖然是整數, 但在 fputc 將其寫入檔案流之前, 又把整數的高24位
去掉了, 因此 fgetc, putc 配合能夠實現檔案複製. 到目前為止, 把 c 定義為
char仍然是可行的, 但下面我們將看到,把 c 定義為 int 是為正確判段檔案是否結束.

(2) 判斷檔案結束.

多數人認為檔案中有一個EOF,用於表示檔案的結尾. 但這個觀點實際上是錯誤的,在文
件所包含的資料中,並沒有什麼檔案結束符. 對getc 而言, 如果不能從檔案中讀取,
則返回一個整數 -1,這就是所謂的EOF. 返回 EOF 無非是出現了兩種情況,一是檔案已
經讀完; 二是檔案讀取出錯,反正是讀不下去了.

請注意: 在正常讀取的情況下, 返回的整數均小於256, 即0x0~0xFF. 而讀不出返回的
是 0xFFFFFFFF. 但, 假如你用fputc把 0xFFFFFFFF 往檔案裡頭寫, 高24位被屏蔽,寫入的將
是 0xFF. // lixforalpha 請注意這一點

(3) 0xFF 會使我們混淆嗎?

不會, 前提是, 接收傳回值的 c 要按原型定義為 int.

如果下一個讀取的字元將為 0xFF, 則

int c;
c = fgetc (rfp); // c = 0x000000FF;
if (c != -1)    // 當然不等, -1 是 0xFFFFFFFF
fputc (wfp);   // 噢, OXFF 複製成功.

字元0xFF, 其本身並不是EOF.

(4) 將 c 定義 char

假定下一個讀取的字元為 0xFF 則

char c;
c = fgetc (rfp); // fgetc(rfp)的值為 0x000000FF, 暗中降為位元組, c = 0xFF
if (c != -1)    // 字元與整數比較? c 被帶符號(signed)擴充為0xFFFFFFFF, 喔噢,
條件成立,檔案複製提前退出.

while ((c=fgetc(rfp))!=EOF) 中的判別條件成立, 檔案複製結束! 意外中止.

(5) 將 c 定義為 unsigned char;

當讀到檔案末尾, 返回 EOF 也就是 -1 時,

unsigned char c;
c = fgetc (rfp); // fgetc (rfp)的值為EOF,即-1,即0xFFFFFFFF, 降格為位元組, c=0xFF
if ( c!= -1)  // c 被擴充為 0x000000FF, 永遠不回等於 0xFFFFFFFF

所以這次雖然能正確複製 0xFF, 但卻不能判斷檔案結束. 事實上,在 c 為 uchar 時,
c != -1 是永遠成立的, 一個高品質的編譯器, 比如 gcc會在編譯時間指出這一點.

(6) 為何需要feof?
FILE *fp;
fp 指向一個很複雜的資料結構, feof 是通過這個結構中的標誌來判斷檔案是否結束的.
如果檔案用 fgetc 讀取, 剛好把最後一個字元讀出時, fp 中的EOF標誌不會開啟,這時
用feof判斷,將會得到檔案尚未結束的結論.

fgetc 返回 -1 時, 我們仍無法確信檔案已經結束, 因為可能是讀取錯誤! 這時我們
需要 feof 和 ferror.

 

 

總結:EOF並不是存在於檔案中的,而是一種狀態,當讀到檔案末尾或者讀取出錯時就會返回這個值來判斷檔案結束。(即即使讀取錯誤可能也被認為檔案結束,所以就需要用feof 和 ferror來判斷是不是真的檔案結束了)

當用getchar(c)時,即使c定義成字元型,也可以結束,主要是c與-1比較時,c也會從char轉換為整型值。

寫個小程式驗證了一下

 

[cpp] view plain copy print ?
  1. #include <stdio.h>   
  2. int main()  
  3. {  
  4.   char c;  
  5.   c = -1;  
  6.   printf("%x",c);  
  7.   return 0;  
  8. }  

#include <stdio.h><br />int main()<br />{<br /> char c;<br /> c = -1;<br /> printf("%x",c);<br /> return 0;<br />}

 

得到的結果為ffffffff,所以c即使定義為char型,讀取檔案等時還是能正常結束。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.