淺析MySQL中exists與in的使用,淺析mysqlexistsin

來源:互聯網
上載者:User

淺析MySQL中exists與in的使用,淺析mysqlexistsin

exists對外表用loop逐條查詢,每次查詢都會查看exists的條件陳述式,當 exists裡的條件陳述式能夠返回記錄行時(無論記錄行是的多少,只要能返回),條件就為真,返回當前loop到的這條記錄,反之如果exists裡的條 件語句不能返回記錄行,則當前loop到的這條記錄被丟棄,exists的條件就像一個bool條件,當能返回結果集則為true,不能返回結果集則為 false

如下:

select * from user where exists (select 1);

對user表的記錄逐條取出,由於子條件中的select 1永遠能返回記錄行,那麼user表的所有記錄都將被加入結果集,所以與 select * from user;是一樣的

又如下

select * from user where exists (select * from user where userId = 0);

可以知道對user表進行loop時,檢查條件陳述式(select * from user where userId = 0),由於userId永遠不為0,所以條件陳述式永遠返回空集,條件永遠為false,那麼user表的所有記錄都將被丟棄

not exists與exists相反,也就是當exists條件有結果集返回時,loop到的記錄將被丟棄,否則將loop到的記錄加入結果集

總的來說,如果A表有n條記錄,那麼exists查詢就是將這n條記錄逐條取出,然後判斷n遍exists條件 

 

 

in查詢相當於多個or條件的疊加,這個比較好理解,比如下面的查詢

select * from user where userId in (1, 2, 3);

等效於

select * from user where userId = 1 or userId = 2 or userId = 3;

not in與in相反,如下

select * from user where userId not in (1, 2, 3);

等效於

select * from user where userId != 1 and userId != 2 and userId != 3;

總的來說,in查詢就是先將子查詢條件的記錄全都查出來,假設結果集為B,共有m條記錄,然後在將子查詢條件的結果集分解成m個,再進行m次查詢

 

值得一提的是,in查詢的子條件返回結果必須只有一個欄位,例如

select * from user where userId in (select id from B);

而不能是

select * from user where userId in (select id, age from B);

而exists就沒有這個限制

這裡修改一下,部分資料庫如mysql的in查詢子條件是可以返回多個欄位的,文法格式如下:

 select * from user where (userId,age) in (select id, age from B);

下面來考慮exists和in的效能

考慮如下SQL語句

1: select * from A where exists (select * from B where B.id = A.id);

2: select * from A where A.id in (select id from B);

 

查詢1.可以轉化以下虛擬碼,便於理解

for ($i = 0; $i < count(A); $i++) {

  $a = get_record(A, $i); #從A表逐條擷取記錄

  if (B.id = $a[id]) #如果子條件成立

    $result[] = $a;

}

return $result;

大概就是這麼個意思,其實可以看到,查詢1主要是用到了B表的索引,A表如何對查詢的效率影響應該不大

 

假設B表的所有id為1,2,3,查詢2可以轉換為

select * from A where A.id = 1 or A.id = 2 or A.id = 3;

這個好理解了,這裡主要是用到了A的索引,B表如何對查詢影響不大

 

下面再看not exists 和 not in

1. select * from A where not exists (select * from B where B.id = A.id);

2. select * from A where A.id not in (select id from B);

看查詢1,還是和上面一樣,用了B的索引

而對於查詢2,可以轉化成如下語句

select * from A where A.id != 1 and A.id != 2 and A.id != 3;

可以知道not in是個範圍查詢,這種!=的範圍查詢無法使用任何索引,等於說A表的每條記錄,都要在B表裡遍曆一次,查看B表裡是否存在這條記錄

故not exists比not in效率高

 

mysql中的in語句是把外表和內表作hash 串連,而exists語句是對外表作loop迴圈,每次loop迴圈再對內表進行查詢。一直大家都認為exists比in語句的效率要高,這種說法其實是不準確的。這個是要區分環境的。
 

如果查詢的兩個表大小相當,那麼用in和exists差別不大。 如果兩個表中一個較小,一個是大表,則子查詢表大的用exists,子查詢表小的用in: 例如:表A(小表),表B(大表) 1:select * from A where cc in (select cc from B) 效率低,用到了A表上cc列的索引; select * from A where exists(select cc from B where cc=A.cc) 效率高,用到了B表上cc列的索引。 相反的 2:select * from B where cc in (select cc from A) 效率高,用到了B表上cc列的索引; select * from B where exists(select cc from A where cc=B.cc) 效率低,用到了A表上cc列的索引。  not in 和not exists如果查詢語句使用了not in 那麼內外表都進行全表掃描,沒有用到索引;而not extsts 的子查詢依然能用到表上的索引。 所以無論那個表大,用not exists都比not in要快。 in 與 =的區別 select name from student where name in ('zhang','wang','li','zhao'); 與 select name from student where name='zhang' or name='li' or name='wang' or name='zhao' 的結果是相同的。
總結一下,之前自己只是死記硬背SQL最佳化方法,卻把其中的原因選擇性忽略,這樣其實是達不到最好的最佳化效果的。我自己最近就碰到一個SQL最佳化問題,習慣性的去用exists但是查詢速度需要70多秒,偶然回來又看了下自己轉載的這篇文章,換了in查詢速度直接變為2秒多。要知其然,更要知其所以然。
相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.