oracle中的pl/sql代碼會涉及到兩個執行引擎,一個專門處理標準的SQL語句,另外一個處理pl/sql的過程代碼,一般在引擎切換上會帶來cpu額外的開銷。比如foreach迴圈語句和普通for迴圈的區別,就是foreach消除了引擎切換,一直駐留在執行標準SQL的引擎中,從而縮短了執行時間。
現在有一個客戶資訊表tacustomer, 包含了birthday, certificatetype, certificateno等欄位,現在想要獲知客戶的生日資訊。由於客戶端註冊時生日等欄位是可選擇填寫項,故大多數為空白,所以要從證件號碼certificateno中提取,certificatetype為證件類型,除身份證之外還有軍官證、士兵證、戶口本等枚舉值,輸入的值也不可靠,本來'0'代表身份證,但由於錄入錯誤,使得非'0'值可能也指身份證,而'0'也可能輸入的不是身份證。結合這些考慮因素,寫了一個函數,輸入參數為上述三個欄位,輸出為生日的年份。寫了兩個版本,在筆者的windows2003資料庫伺服器上(Intel(R) Xeon(R) CPU 5140 @ 2.33GHZ,4cpu,4.00GB記憶體),執行語句如下(tacustomer行數為200百萬左右):
-- 測試簡單字串串連的執行時間
SELECT COUNT(t.certificatetype || t.certificateno || t.birthday)
FROM tacustomer t
WHERE 1 = 1
AND ROWNUM < 2000000
-- 測試自訂函數的執行時間
SELECT COUNT(f_extract_birthday(t.certificatetype, t.certificateno, t.birthday))
FROM tacustomer t
WHERE 1 = 1
AND ROWNUM < 2000000
執行時間如下(秒):
8.563
19.844(版本1)
57.953(版本2)
可以看出基本是3倍的關係(將上面的條件改為ROWNUM < 1000000,同樣滿足3倍的關係),版本1和版本2之間的區別是內部實現不同。第一代身份證15位必須全為0-9的數字,第二代18位的前17位全為數字,最後一個為數字或'X'。版本1和2對這個是否數位校正採用了不同的方式。版本1逐個檢查,版本2用cast(certno as numeric)並捕捉異常的方式,結果版本2比1快3倍。從中得出的結論,自訂函數一般效能比不上系統內建函數。
附兩個版本的代碼: