之前在一個出入庫的系統裡用了Sqlbulkcopy函數來進行對資料批量寫入到SQL Server裡,效果非常好,比傳統的Insert into的效率高了很多。於是在對php批量寫入到MySQL這個問題上,有了“塊寫入”的想法。對於php的瞭解並不多,只是配合我的師傅阿明,來解決大資料批量寫入慢的問題。
寫入MySQL的是用Load的方法,該方法的執行機制是先將資料產生為一個.txt的文字檔,然後通過匯入到MySQL來實現寫入操作的。可以來分析一下,其實整個操作包含兩個步驟:
1、將資料產生為磁碟上的一個文本。(第一次寫入磁碟)
2、將這個文本匯入到目標資料庫。(第二次寫入磁碟)給一個程式碼片段:
$sql="load data infile '$filepath' into table ".$table." character set gbk fields terminated by ':|' lines terminated by ',' (`id`,`name`,`age`);";
$db->ExcNonQuery($sql);
看到了,一共是兩次的磁碟操作。我們知道目前,電腦最大的瓶頸是磁碟,那麼這裡對“瓶頸”進行了兩次操作,這個導致的結果必須是慢啊,無盡的慢————囧。文檔都找到MSDN上了,看到.NET有一個MemoryStream的函數,是一個流操作,把資訊寫入到記憶體裡。這個方法讓我想到了,如果在產生的操作可以在記憶體裡執行,那麼整個行為就會快很多。
可是,問題又來了,資料是產生在記憶體裡,但是沒有辦法知道寫入的記憶體位址,無法讀到資料。。。於是這樣一個方法出現了,我把它叫做:php批量寫入MySQL的第二方法。為什麼怎麼叫,因為我對php瞭解不多,興許有更好的方法說不定。不賣關子,直接坦白:利用Ramdisk(虛擬硬碟軟體)虛擬出一個記憶體盤,將第一步的操作放在這個記憶體盤裡執行。可以來看一下:
來看一下這個“磁碟的效能”:
用紅線框框這的,一個是平均讀取速度,一個是突發讀取速度,很驚人,任何一個硬碟都達不到的傳輸率。也就是這個盤解決了,產生一億條資料,再寫入到資料庫的短時操作。姑且就叫做第二方法吧~