標籤:區別 分析 條件 union all 體會 萬用字元 自動 原理 沒有
一、問題的提出
在應用系統開發初期,由於開發資料庫資料比較少,對於查詢SQL語句,複雜視圖的編寫等體會不出SQL語句各種寫法的效能優劣,但是如果將應用系統提交實際應用後,隨著資料庫中資料的增加,系統的響應速度就成為目前系統需要解決的最主要的問題之一。
系統最佳化中一個很重要的方面就是SQL語句的最佳化。對于海量資料,劣質SQL語句和優質SQL語句之間的速度差別可以達到上百倍,可見對於一個系統不是簡單地能實現其功能就可,而是要寫出高品質的SQL語句,提高系統的可用性。
在多數情況下,Oracle使用索引來更快地遍曆表,最佳化器主要根據定義的索引來提高效能。但是,如果在SQL語句的where子句中寫的SQL代碼不合理,就會造成最佳化器刪去索引而使用全表掃描,一般就這種SQL語句就是所謂的劣質SQL語句。在編寫SQL語句時我們應清楚最佳化器根據何種原則來刪除索引,這有助於寫出高效能的SQL語句。
二、SQL語句編寫注意問題
下面就某些SQL語句的where子句編寫中需要注意的問題作詳細介紹。在這些where子句中,即使某些列存在索引,但是由於編寫了劣質的SQL,系統在運行該SQL語句時也不能使用該索引,而同樣使用全表掃描,這就造成了響應速度的極大降低。
1. 操作符最佳化
(a) IN 操作符
用IN寫出來的SQL的優點是比較容易寫及清晰易懂,這比較適合現代軟體開發的風格。但是用IN的SQL效能總是比較低的,從Oracle執行的步驟來分析用IN的SQL與不用IN的SQL有以下區別:
ORACLE試圖將其轉換成多個表的串連,如果轉換不成功則先執行IN裡面的子查詢,再查詢外層的表記錄,如果轉換成功則直接採用多個表的串連方式查詢。由此可見用IN的SQL至少多了一個轉換的過程。一般的SQL都可以轉換成功,但對於含有分組統計等方面的SQL就不能轉換了。
推薦方案:在業務密集的SQL當中盡量不採用IN操作符,用EXISTS 方案代替。
(b) NOT IN操作符
此操作是強列不推薦使用的,因為它不能應用表的索引。
推薦方案:用NOT EXISTS 方案代替
(c) IS NULL 或IS NOT NULL操作(判斷欄位是否為空白)
判斷欄位是否為空白一般是不會應用索引的,因為索引是不索引空值的。不能用null作索引,任何包含null值的列都將不會被包含在索引中。即使索引有多列這樣的情況下,只要這些列中有一列含有null,該列就會從索引中排除。
也就是說如果某列存在空值,即使對該列建索引也不會提高效能。任何在where子句中使用is null或is not null的語句最佳化器是不允許使用索引的。
推薦方案:用其它相同功能的操作運算代替,如:a is not null 改為 a>0 或a>’’等。不允許欄位為空白,而用一個預設值代替空值,如申請中狀態欄位不允許為空白,預設為申請。
(d) > 及 < 操作符(大於或小於操作符)
大於或小於操作符一般情況下是不用調整的,因為它有索引就會採用索引尋找,但有的情況下可以對它進行最佳化,如一個表有100萬記錄,一個數值型欄位A,30萬記錄的A=0,30萬記錄的A=1,39萬記錄的A=2,1萬記錄的A=3。那麼執行A>2與A>=3的效果就有很大的區別了,因為A>2時ORACLE會先找出為2的記錄索引再進行比較,而A>=3時ORACLE則直接找到=3的記錄索引。
(e) LIKE操作符
LIKE操作符可以應用萬用字元查詢,裡面的萬用字元組合可能達到幾乎是任意的查詢,但是如果用得不好則會產生效能上的問題,如LIKE ‘%5400%’ 這種查詢不會引用索引,而LIKE ‘X5400%’則會引用範圍索引。
一個實際例子:用YW_YHJBQK表中營業編號後面的戶標識號可來查詢營業編號 YY_BH LIKE ‘%5400%’ 這個條件會產生全表掃描,如果改成YY_BH LIKE ’X5400%’ OR YY_BH LIKE ’B5400%’ 則會利用YY_BH的索引進行兩個範圍的查詢,效能肯定大大提高。
帶萬用字元(%)的like語句:
同樣以上面的例子來看這種情況。目前的需求是這樣的,要求在職工表中查詢名字中包含cliton的人。可以採用如下的查詢SQL語句:
select * from employee where last_name like ‘%cliton%‘;
這裡由於萬用字元(%)在搜尋詞首出現,所以Oracle系統不使用last_name的索引。在很多情況下可能無法避免這種情況,但是一定要心中有底,萬用字元如此使用會降低查詢速度。然而當萬用字元出現在字串其他位置時,最佳化器就能利用索引。在下面的查詢中索引得到了使用:
select * from employee where last_name like ‘c%‘;
(f) UNION操作符
UNION在進行錶鏈接後會篩選掉重複的記錄,所以在錶鏈接後會對所產生的結果集進行排序運算,重複資料刪除的記錄再返回結果。實際大部分應用中是不會產生重複的記錄,最常見的是過程表與曆史表UNION。如:
select * from gc_dfys
union
select * from ls_jg_dfys
這個SQL在運行時先取出兩個表的結果,再用排序空間進行排序重複資料刪除的記錄,最後返回結果集,如果表資料量大的話可能會導致用磁碟進行排序。
推薦方案:採用UNION ALL操作符替代UNION,因為UNION ALL操作只是簡單的將兩個結果合并後就返回。
select * from gc_dfys
union all
select * from ls_jg_dfys
(g) 聯結列
對於有聯結的列,即使最後的聯結值為一個靜態值,最佳化器是不會使用索引的。我們一起來看一個例子,假定有一個職工表(employee),對於一個職工的姓和名分成兩列存放(FIRST_NAME和LAST_NAME),現在要查詢一個叫比爾.克林頓(Bill Cliton)的職工。
下面是一個採用聯結查詢的SQL語句:
select * from employss where first_name||‘‘||last_name =‘Beill Cliton‘;
上面這條語句完全可以查詢出是否有Bill Cliton這個員工,但是這裡需要注意,系統最佳化器對基於last_name建立的索引沒有使用。當採用下面這種SQL語句的編寫,Oracle系統就可以採用基於last_name建立的索引。
where first_name =‘Beill‘ and last_name =‘Cliton‘;
(h) Order by語句
ORDER BY語句決定了Oracle如何將返回的查詢結果排序。Order by語句對要排序的列沒有什麼特別的限制,也可以將函數加入列中(象聯結或者附加等)。任何在Order by語句的非索引項目或者有計算運算式都將降低查詢速度。
仔細檢查order by語句以找出非索引項目或者運算式,它們會降低效能。解決這個問題的辦法就是重寫order by語句以使用索引,也可以為所使用的列建立另外一個索引,同時應絕對避免在order by子句中使用運算式。
(i) NOT
我們在查詢時經常在where子句使用一些邏輯運算式,如大於、小於、等於以及不等於等等,也可以使用and(與)、or(或)以及not(非)。NOT可用來對任何邏輯運算子號取反。下面是一個NOT子句的例子:
where not (status =‘VALID‘)
如果要使用NOT,則應在取反的短語前面加上括弧,並在短語前面加上NOT運算子。NOT運算子包含在另外一個邏輯運算子中,這就是不等於(<>)運算子。換句話說,即使不在查詢where子句中顯式地加入NOT詞,NOT仍在運算子中,見下例:
where status <>‘INVALID‘;
對這個查詢,可以改寫為不使用NOT:
select * from employee where salary<3000 or salary>3000;
雖然這兩種查詢的結果一樣,但是第二種查詢方案會比第一種查詢方案更快些。第二種查詢允許Oracle對salary列使用索引,而第一種查詢則不能使用索引。
2. SQL書寫的影響
(a) 同一功能同一效能不同寫法SQL的影響。
如一個SQL在A程式員寫的為 Select * from zl_yhjbqk
B程式員寫的為 Select * from dlyx.zl_yhjbqk(帶表所有者的首碼)
C程式員寫的為 Select * from DLYX.ZLYHJBQK(大寫表名)
D程式員寫的為 Select * from DLYX.ZLYHJBQK(中間多了空格)
以上四個SQL在ORACLE分析整理之後產生的結果及執行的時間是一樣的,但是從ORACLE共用記憶體SGA的原理,可以得出ORACLE對每個SQL 都會對其進行一次分析,並且佔用共用記憶體。
如果將SQL的字串及格式寫得完全相同,則ORACLE只會分析一次,共用記憶體也只會留下一次的分析結果,這不僅可以減少分析SQL的時間,而且可以減少共用記憶體重複的資訊,ORACLE也可以準確統計SQL的執行頻率。
(b) WHERE後面的條件順序影響
WHERE子句後面的條件順序對大資料量表的查詢會產生直接的影響。如:
Select * from zl_yhjbqk where dy_dj = ‘1KV以下‘ and xh_bz=1
Select * from zl_yhjbqk where xh_bz=1 and dy_dj = ‘1KV以下‘
以上兩個SQL中dy_dj(電壓等級)及xh_bz(銷戶標誌)兩個欄位都沒進行索引,所以執行的時候都是全表掃描,第一條SQL的dy_dj = ’1KV以下’條件在記錄集內比率為99%,而xh_bz=1的比率只為0.5%,在進行第一條SQL的時候99%條記錄都進行dy_dj及xh_bz的比較,而在進行第二條SQL的時候0.5%條記錄都進行dy_dj及xh_bz的比較,以此可以得出第二條SQL的CPU佔用率明顯比第一條低。
(c) 查詢表順序的影響
在FROM後面的表中的列表順序會對SQL執行效能影響,在沒有索引及ORACLE沒有對錶進行統計分析的情況下,ORACLE會按表出現的順序進行連結,由此可見表的順序不對時會產生十分耗服物器資源的資料交叉。(註:如果對錶進行了統計分析,ORACLE會自動先進小表的連結,再進行大表的連結)
3. SQL語句索引的利用
(a) 對條件欄位的一些最佳化
採用函數處理的欄位不能利用索引,如:
substr(hbs_bh,1,4)=’5400’
最佳化處理:hbs_bh like ‘5400%’
trunc(sk_rq)=trunc(sysdate)
最佳化處理:sk_rq>=trunc(sysdate) and sk_rq
進行了顯式或隱式的運算的欄位不能進行索引,如:
ss_df+20>50
最佳化處理:ss_df>30
‘X’ || hbs_bh>’X5400021452’
最佳化處理:hbs_bh>’5400021542’
sk_rq+5=sysdate
最佳化處理:sk_rq=sysdate-5
hbs_bh=5401002554
最佳化處理:hbs_bh=’ 5401002554’
註:此條件對hbs_bh 進行隱式的to_number轉換,因為hbs_bh欄位是字元型。
條件內包括了多個本表的欄位運算時不能進行索引,如:
hbs_bh=5401002554
最佳化處理:hbs_bh=’ 5401002554’
註:此條件對hbs_bh 進行隱式的to_number轉換,因為hbs_bh欄位是字元型。
條件內包括了多個本表的欄位運算時不能進行索引,如:
ys_df>cx_df
無法進行最佳化
qc_bh || kh_bh=’5400250000’
最佳化處理:qc_bh=’5400’ and kh_bh=’250000’
資料庫效能最佳化之SQL語句最佳化(轉 java知音)