關於 Python 代碼最佳化你需要知道的最重要問題是,決不要自己編寫計時函數。
為一個很短的代碼計時都很複雜。處理器有多少時間用於運行這個代碼?有什麼在後台運行嗎?每個現代電腦都在後台運行持續或者間歇的程式。小小的疏忽可能破壞你的百年大計,後台服務偶爾被 “喚醒” 在最後千分之一秒做一些像查收信件,串連計時通訊伺服器,檢查應用程式更新,掃描病毒,查看是否有磁碟被插入光碟機之類很有意義的事。在開始計時測試之前,把一切都關掉,斷開網路的串連。再次確定一切都關上後關掉那些不斷查看網路是否恢複的服務等等。
接下來是計時架構本身引入的變化因素。Python 解譯器是否緩衝了方法名的尋找?是否緩衝代碼塊的編譯結果?Regex呢? 你的代碼重複運行時有副作用嗎?不要忘記,你的工作結果將以比秒更小的單位呈現,你的計時架構中的小錯誤將會帶來不可挽回的結果扭曲。
Python 社區有句俗語:“Python 自己帶著電池。” 別自己寫計時架構。Python 2.3 具備一個叫做 timeit 的完美計時工具。
例 18.2. timeit 介紹
如果您還沒有下載本書附帶的範例程式, 可以 下載本程式和其他範例程式。
>>> import timeit
>>> t = timeit.Timer("soundex.soundex('Pilgrim')",
... "import soundex")
>>> t.timeit()
8.21683733547
>>> t.repeat(3, 2000000)
[16.48319309109, 16.46128984923, 16.44203948912]
|
timeit 模組定義了接受兩個參數的 Timer 類。兩個參數都是字串。第一個參數是你要計時的語句,這裡你計時的是以'Pilgrim'參數調用 Soundex 函數。傳遞給 Timer 的第二個參數是為第一個參數語句構建環境的匯入語句。從內部講,timeit 構建起一個獨立的虛擬環境,手工地執行建立語句 (匯入 soundex 模組),然後手工地編譯和執行被計時語句 (調用 Soundex 函數)。 |
|
只要有了 Timer 對象,最簡單的事就是調用 timeit(),它調用你的函數一百萬次並返回所耗費的秒數。 |
|
Timer 對象的另一個主要方法是 repeat(),它接受兩個選擇性參數。第一個參數是重複整個測試的次數,第二個參數是每個測試中調用被計時語句的次數。兩個參數都是可選的,它們的預設值分別是 3 和 1000000。repeat() 方法返回以秒記錄的每個測試迴圈的耗時列表。 |
|
你可以在命令列使用 timeit 模組來測試一個已存在的 Python 程式,而不需要修改代碼。在 http://docs.python.org/lib/node396.html 查看文檔中關於命令列選項的內容。 |
注意 repeat() 返回一個時間列表。由於 Python 計時器使用的處理器時間的微小變化 (或者那些你沒辦法根除的可惡的後台進程),這些時間中幾乎不可能出現重複。你的第一想法也許是說:“讓我們求平均值獲得真實的資料。”
事實上,那幾乎是確定錯誤的。你的代碼或者 Python 解譯器的變化可能縮短耗時,那些沒辦法去除的可惡後台進程或者其他 Python 解譯器以外的因素也許令耗時延長。如果計時結果之間的差異超過百分之幾,太多的可變因素使你沒法相信結果,如果不是這樣則可以取最小值而丟棄其他結果。
Python 有一個方便的 min 函數返回輸入列表中的最小值:
>>> min(t.repeat(3, 1000000))
8.22203948912
|
timeit 模組只有在你知道哪段代碼需要最佳化時使用。如果你有一個很大的 Python 程式並且不知道你的效能問題所在,查看 hotshot 模組。 |