FROM: http://hqlong.com/2009/01/530.html
對於日IP不高或者說並發數不是很大的應用,一般不用考慮這些!!用一般的檔案操作方法完全沒有問題。但如果並發高,在我們對檔案進行讀寫操作時,很有可能多個進程對進一檔案進行操作,如果這時不對檔案的訪問進行相應的獨佔,就容易造成資料丟失。
例如:一個線上聊天室(這裡假定把聊天內容寫入檔案),在同一時刻,使用者A和使用者B都要操作資料儲存檔案,首先是A開啟了檔案,然後更新裡面的資料,但這 裡B也正好也開啟了同一個檔案,也準備更新裡面的資料。當A把寫好的檔案儲存時,這裡其實B已經開啟了檔案。但當B再把檔案儲存回去時,這裡已經造成了數 據的丟失,因為這裡B使用者完全不知道它所開啟的檔案在它對其變更時,A使用者也更改了這個檔案,所以最後B使用者儲存更改時,使用者A的更新就被會丟失。
對於這樣的問題,一般的解決方案時當一進程對檔案進行操作時,首先對其它進行加鎖,意味著這裡只有該進程有權對檔案進行讀取,其它進程如果現在讀,是完全 沒有問題,但如果這時有進程試圖想對其進行更新,會遭到操作拒絕,先前對檔案進行加鎖的進程這時如果對檔案的更新操作完畢,這就釋放獨佔的標識,這時檔案 又恢複到了可更改的狀態。接下來同理,如果那個進程在操作檔案時,檔案沒有加鎖,這時,它就可以放心大膽的對檔案進行鎖定,獨自享用。
所以一般的方案會是:
$fp = fopen("/tmp/lock.txt", "w+");
if (flock($fp, LOCK_EX)) {
fwrite($fp, "Write something here/n");
flock($fp, LOCK_UN);
} else {
echo "Couldn't lock the file !";
}
fclose($fp);
但在PHP中,flock似乎工作的不是那麼好!在多並發情況下,似乎是經常獨佔資源,不即時釋放,或者是根本不釋放,造成死結,從而使伺服器的cpu佔用很高,甚至有時候會讓伺服器徹底死掉。好像在很多linux/unix系統中,都會有這樣的情況發生。
所以使用flock之前,一定要謹慎考慮。
那麼就沒有解決方案了嗎?其實也不是這樣的。如果flock()我們使用得當,完全可能解決死結的問題。當然如果不考慮使用flock()函數,也同樣會有很好的解決方案來解決我們的問題。
經過我個人的搜集和總結,大致歸納瞭解決方案有如下幾種。
方案一:對檔案進行加鎖時,設定一個逾時時間.
大致實現如下:
if($fp = fopen($fileName, 'a')) {
$startTime = microtime();
do {
$canWrite = flock($fp, LOCK_EX);
if(!$canWrite) usleep(round(rand(0, 100)*1000));
} while ((!$canWrite) && ((microtime()-$startTime) < 1000));
if ($canWrite) {
fwrite($fp, $dataToSave);
}
fclose($fp);
}
逾時設定為1ms,如果這裡時間內沒有獲得鎖,就反覆獲得,直接獲得到對檔案操作權為止,當然。如果逾時限制已到,就必需馬上退出,讓出鎖讓其它進程來進行操作。
方案二:不使用flock函數,借用臨時檔案來解決讀寫衝突的問題。
大致原理如下:
1。將需要更新的檔案考慮一份到我們的臨時檔案目錄,將檔案最後修改時間儲存到一個變數,並為這個臨時檔案取一個隨機的,不容易重複的檔案名稱。
2。當對這個臨時檔案進行更新後,再檢測原檔案的最後更新時間和先前所儲存的時間是否一致。
3。如果最後一次修改時間一致,就將所修改的臨時檔案重新命名到原檔案,為了確保檔案狀態同步更新,所以需要清除一下檔案狀態。
4。但是,如果最後一次修改時間和先前所儲存的一致,這說明在這期間,原檔案已經被修改過,這時,需要把臨時檔案刪除,然後返回false,說明檔案這時有其它進程在進行操作。
大致實現代碼如下:
$dir_fileopen = "tmp";
function randomid() {
return time().substr(md5(microtime()), 0, rand(5, 12));
}
function cfopen($filename, $mode) {
global $dir_fileopen;
clearstatcache();
do {
$id = md5(randomid(rand(), TRUE));
$tempfilename = $dir_fileopen."/".$id.md5($filename);
} while(file_exists($tempfilename));
if (file_exists($filename)) {
$newfile = false;
copy($filename, $tempfilename);
}else{
$newfile = true;
}
$fp = fopen($tempfilename, $mode);
return $fp ? array($fp, $filename, $id, @filemtime($filename)) : false;
}
function cfwrite($fp,$string) { return fwrite($fp[0], $string); }
function cfclose($fp, $debug = "off") {
global $dir_fileopen;
$success = fclose($fp[0]);
clearstatcache();
$tempfilename = $dir_fileopen."/".$fp[2].md5($fp[1]);
if ((@filemtime($fp[1]) == $fp[3]) || ($fp[4]==true && !file_exists($fp[1])) || $fp[5]==true) {
rename($tempfilename, $fp[1]);
}else{
unlink($tempfilename);
//說明有其它進程 在操作目標檔案,當前進程被拒絕
$success = false;
}
return $success;
}
$fp = cfopen('lock.txt','a+');
cfwrite($fp,"welcome to beijing./n");
fclose($fp,'on');
對於上面的代碼所使用的函數,需要說明一下:
1.rename();重新命名一個檔案或一個目錄,該函數其實更像linux裡的mv。更新檔案或者目錄的路徑或名字很方便。
但當我在window測試上面代碼時,如果新檔案名稱已經存在,會給出一個notice,說當前檔案已經存在。但在linux下工作的很好。
2.clearstatcache();清除檔案的狀態.php將緩衝所有檔案屬性資訊,以提供更高的效能,但有時,多進程在對檔案進行刪除或者更新操作 時,php沒來得及更新緩衝裡的檔案屬性,容易導致訪問到最後更新時間不是真實的資料。所以這裡需要使用該函數對已儲存的緩衝進行清除。
方案三:對操作的檔案進行隨機讀寫,以降低並發的可能性。
在對使用者訪問日誌進行記錄時,這種方案似乎被採用的比較多。
先前需要定義一個隨機空間,空間越大,並發的的可能性就越小,這裡假設隨機讀寫空間為[1-500],那麼我們的記錄檔的分布就為log1~到log500不等。每一次使用者訪問,都將資料隨機寫到log1~log500之間的任一檔案。
在同一時刻,有2個進程進行記錄日誌,A進程可能是更新的log32檔案,而B進程呢?則此時更新的可能就為log399.要知道,如果要讓B進程也操作log32,機率基本上為1/500,差不多約等於零。
在需要對訪問日誌進行分析時,這裡我們只需要先將這些日誌合并,再進行分析即可。
使用這種方案來記錄日誌的一個好處時,進程操作排隊的可能性比較小,可以使進程很迅速的完成每一次操作。
方案四:將所有要操作的進程放入一個隊列中。然後專門放一個服務完成檔案操作。
隊列中的每一個排除的進程相當於第一個具體的操作,所以第一次我們的服務只需要從隊列中取得相當於具體操作事項就可以了,如果這裡還有大量的檔案操作進程,沒關係,排到我們的隊列後面即可,只要願意排,隊列的多長都沒關係。
對於以前幾種方案,各有各的好處!大致可能歸納為兩類:
1。需要排隊(影響慢)比如方案一、二、四
2。不需要排隊。(影響快)方案三
在設計緩衝系統時,一般我們不會採用方案三。因為方案三的剖析器和寫入程式是不同步的,在寫的時間,完全不考慮到時候分析的難度,只管寫的行了。試想一 下,如我們在更新一個緩衝時,如果也採用隨機檔案讀寫法,那麼在讀緩衝時似乎會增加很多流程。但採取方案一、二就完全不一樣,雖然寫的時間需要等待(當獲 取鎖不成功時,會反覆擷取),但讀檔案是很方便的。添加緩衝的目的就是要減少資料讀取瓶頸,從而提高系統效能。
從上為個人經驗和一些資料的總結,有什麼不對的地方,或者沒有談到的地方,歡迎各位同學指正。