本來今天不準備開電腦了,太困了,想睡覺,然而一哥們兒簡訊都發過來了,要問個問題,於是還是開啟了電腦,沒想到是一個很有代表性的問題,順便也牽扯了前些天我的工作中的一個bug,值得記錄下來。問題如下:
linux下,一個可執行檔exe1正在執行中,rm –f可以將其刪除,mv可以將其移除,mv $other exe1也可以將其替換,但是cp $other exe1則顯示檔案忙,求解。
這實際上並不是一個真正的問題,因為只要你的基礎知識紮實,這個問題顯然很簡單,原因只有一個,那就是linux檔案基於引用計數。現在問題是這些個命令如何來操作一個檔案的引用計數。下面的討論都是基於獨佔開啟的模式。
如果一個檔案已經被開啟,那麼它的引用計數會增加1,如果調用了rm,實際上底層只是unlink了一下,也就是說將它的引用計數減少1,這樣雖然你在介面上(命令列或者GUI)看不到它了,但是它被開啟時的計數還在,只有當它被關閉的時候,引用計數變為0,才徹底刪除它。
再說mv命令,它實際上只是一個源檔案的rename而已,如果mv的目標本來就存在,那麼在目標上執行一個類似rm的效果,也就是unlink一下,結合引用計數的理論,目標檔案如果已經被開啟,那麼當關閉的時候將不複存在,如果本來就沒有被開啟,那麼mv的時候,目標直接被刪除,因為unlink之後,它的引用計數變成了0。
最後看一下cp命令,cp的話並不觸動源檔案和目標檔案中繼資料本身(時間戳記除外),它只是開啟源檔案和目標檔案,在源檔案上執行read,然後將結果write到目標檔案,實質上是一個IO操作,對於可執行檔,是獨佔開啟的,並不允許寫入,因此會出錯。
這裡就不再列出核心源碼了,可以自行參考系統調用的實現而加深理解,不過最好別乾巴巴的看,還是結合strace以及objdump比較好,要知道是怎麼以及什麼時候調用的,以及調用參數是什麼,否則就和八股文沒區別了。那麼這和我工作中的bug有什麼關係呢?這個bug源於OpenVPN的日誌記錄,並且配置了日誌復原,復原設定檔關鍵字段如下:
size 4M
missingok
rotate 9
compress
delaycompress
create 644 xx xx
…
結果當日誌復原成了vpn.log.1之後,這個vpn.log.1依然繼續被寫入。這個原因正是rename造成的。在logrotate的man頁面中,有一個copytruncate配置,其含義就是不進行rename,而只是copy,然後將原來的檔案truncate,加入這個就可以了。
千萬不要小看這些很簡單的命令,真正理解的人並不多,即使真正的理解,出現問題,能真正對應到原理也不多,很簡單的東西如果能徹底做到透徹的理解並且活用,再往深入學習才是有意義的。