有兩個簡單例子,以說明 “exists”和“in”的效率問題
1) select * from T1 where exists(select * from T2 where T1.a=T2.a) ;
T1資料量小而T2資料量非常大時,T1<<T2 時,1) 的查詢效率高。
2) select * from T1 where T1.a in (select T2.a from T2) ;
T1資料量非常大而T2資料量小時,T1>>T2 時,2) 的查詢效率高。
exists 用法:
1)句中的“select * from T2 where T1.a=T2.a” 相當於一個關聯表查詢,
相當於“select * from T1,T2 where T1.a=T2.a”;
“exists(xxx)”它只在乎括弧裡的資料能不能尋找出來,是否存在這樣的記錄,如果存在,這1)句的where 條件成立。
in的用法:
2)句中的“select * from T1 where T1.a in (select T2.a from T2) ”,這裡的“in”後面括弧裡的語句搜尋出來的欄位的內容一定要相對應,一般來說,T1和T2這兩個表的a欄位表達的意義應該是一樣的,否則這樣查沒什麼意義。
---------------------------------------------------------------
+++++++++++++ 下面轉載 +++++++++++++++++++
---------------------------------------------------------------
今天市場報告有個sql及慢,運行需要20多分鐘,如下:
update p_container_decl cd
set cd.ANNUL_FLAG=\'0001\',ANNUL_DATE = sysdate
where exists(
select 1
from (
select tc.decl_no,tc.goods_no
from p_transfer_cont tc,P_AFFIRM_DO ad
where tc.GOODS_DECL_NO = ad.DECL_NO
and ad.DECL_NO = \'sssssssssssssssss\'
) a
where a.decl_no = cd.decl_no
and a.goods_no = cd.goods_no
)
上面涉及的3個表的記錄數都不小,均在百萬左右。根據這種情況,我想到了前不久看的tom的一篇文章,說的是exists和in的區別,in 是把外表和那表作hash join,而exists是對外表作loop,每次loop再對那表進行查詢。
這樣的話,in適合內外表都很大的情況,exists適合外表結果集很小的情況。
而我目前的情況適合用in來作查詢,於是我改寫了sql,如下:
update p_container_decl cd
set cd.ANNUL_FLAG=\'0001\',ANNUL_DATE = sysdate
where (decl_no,goods_no) in
(
select tc.decl_no,tc.goods_no
from p_transfer_cont tc,P_AFFIRM_DO ad
where tc.GOODS_DECL_NO = ad.DECL_NO
and ad.DECL_NO = ‘ssssssssssss’
)
讓市場人員測試,結果已耗用時間在1分鐘內。問題解決了,看來exists和in確實是要根據表的資料量來決定使用。