mysql DEPENDENT SUBQUERY(轉載)

來源:互聯網
上載者:User

標籤:

案例梳理時間:2013-9-25 寫在前面的話:
  1. 在慢查最佳化1和2裡都反覆強調過 explain 的重要性,但有時候肉眼看不出 explain 結果如何指導最佳化,這時候還需要有一些其他基礎知識的佐助,甚至需要瞭解 MySQL 實現原理,如子查詢慢查最佳化
  2. 看到 SQL 執行計畫中 select_type 欄位中出現“DEPENDENT SUBQUERY”時,要打起精神了!

——MySQL 的子查詢為什麼有時候很糟糕——

引子:這樣的子查詢為什麼這麼慢?

下面的例子是一個慢查,線上執行時間相當誇張。為什麼呢?

SELECT gid,COUNT(id) as count 

FROM shop_goods g1

WHERE status =0 and gid IN ( 

SELECT gid FROM shop_goods g2 WHERE sid IN  (1519066,1466114,1466110,1466102,1466071,1453929)

)

GROUP BY gid;

它的執行計畫如下,請注意看關鍵詞“DEPENDENT SUBQUERY”:

    id  select_type         table   type            possible_keys                           key           key_len  ref       rows  Extra      
------  ------------------  ------  --------------  --------------------------------------  ------------  -------  ------  ------  -----------
     1  PRIMARY             g1      index           (NULL)                                  idx_gid  5        (NULL)  850672  Using where
     2  DEPENDENT SUBQUERY  g2      index_subquery  id_shop_goods,idx_sid,idx_gid  idx_gid  5        func         1  Using where

 

基礎知識:Dependent Subquery意味著什麼

官方含義為:

SUBQUERY:子查詢中的第一個SELECT;

DEPENDENT SUBQUERY:子查詢中的第一個SELECT,取決於外面的查詢 。

換句話說,就是 子查詢對 g2 的查詢方式依賴於外層 g1 的查詢

什麼意思呢?它意味著兩步:

第一步,MySQL 根據 select gid,count(id) from shop_goods where status=0 group by gid; 得到一個大結果集 t1,其資料量就是中的 rows=850672 了。

第二步,上面的大結果集 t1 中的每一條記錄,都將與子查詢 SQL 組成新的查詢語句:select gid from shop_goods where sid in (15...blabla..29) and gid=%t1.gid%。等於說,子查詢要執行85萬次……即使這兩步查詢都用到了索引,但不慢才怪。

如此一來,子查詢的執行效率居然受制於外層查詢的記錄數,那還不如拆成兩個獨立查詢順序執行呢

 

最佳化策略1:

你不想拆成兩個獨立查詢的話,也可以與暫存資料表聯表查詢,如下所示:

SELECT g1.gid,count(1)

FROM shop_goods g1,(select gid from shop_goods WHERE sid in (1519066,1466114,1466110,1466102,1466071,1453929)) g2

where g1.status=0 and g1.gid=g2.gid

GROUP BY g1.gid;

也能得到同樣的結果,且是毫秒級。

它的執行計畫為:

    id  select_type  table           type    possible_keys              key            key_len  ref            rows  Extra                          
------  -----------  --------------  ------  -------------------------  -------------  -------  -----------  ------  -------------------------------
     1  PRIMARY      <derived2>      ALL     (NULL)                     (NULL)         (NULL)   (NULL)           30  Using temporary; Using filesort
     1  PRIMARY      g1              ref     idx_gid               idx_gid   5        g2.gid       1  Using where                    
     2  DERIVED      shop_goods  range   id_shop_goods,idx_sid  id_shop_goods  5        (NULL)           30  Using where; Using index      

DERIVED 的官方含義為:

DERIVED:用於 from 子句裡有子查詢的情況。MySQL 會遞迴執行這些子查詢,把結果放在暫存資料表裡。

 

DBA觀點引用:MySQL 子查詢的弱點

hidba 論述道(參考資源3):

mysql 在處理子查詢時,會改寫子查詢。

通常情況下,我們希望由內到外,先完成子查詢的結果,然後再用子查詢來驅動外查詢的表,完成查詢。

例如:

select * from test where tid in(select fk_tid from sub_test where gid=10)

通常我們會感性地認為該 sql 的執行順序是:

sub_test 表中根據 gid 取得 fk_tid(2,3,4,5,6)記錄,

然後再到 test 中,帶入 tid=2,3,4,5,6,取得查詢資料。

但是實際mysql的處理方式為:

select * from test where exists (

select * from sub_test where gid=10 and sub_test.fk_tid=test.tid

)

mysql 將會掃描 test 中所有資料,每條資料都將會傳到子查詢中與 sub_test 關聯,子查詢不會先被執行,所以如果 test 表很大的話,那麼效能上將會出現問題。

 

《高效能MySQL》一書的觀點引用

《高效能MySQL》的第4.4節“MySQL查詢最佳化工具的限制(Limitations of the MySQL Query Optimizer)”之第4.4.1小節“關聯子查詢(Correlated Subqueries)”也有類似的論述:

MySQL有時最佳化子查詢很糟,特別是在WHERE從句中的IN()子查詢。……

比如在sakila資料庫sakila.film表中找出所有的film,這些film的actoress包括Penelope Guiness(actor_id = 1)。可以這樣寫:

mysql> SELECT * FROM sakila.film

-> WHERE film_id IN(

-> SELECT film_id FROM sakila.film_actor WHERE actor_id = 1);

mysql> EXPLAIN SELECT * FROM sakila.film ...;

+----+--------------------+------------+--------+------------------------+

| id | select_type        | table      | type   | possible_keys          |

+----+--------------------+------------+--------+------------------------+

| 1  | PRIMARY            | film       | ALL    | NULL                   |

| 2  | DEPENDENT SUBQUERY | film_actor | eq_ref | PRIMARY,idx_fk_film_id |

+----+--------------------+------------+--------+------------------------+

根據EXPLAIN的輸出,MySQL將全表掃描film表,對找到的每行執行子查詢,這是很不好的效能。幸運的是,很容易改寫為一個join查詢:

mysql> SELECT film.* FROM sakila.film

-> INNER JOIN sakila.film_actor USING(film_id)

-> WHERE actor_id = 1;

另外一個方法是通過使用GROUP_CONCAT()執行子查詢作為一個單獨的查詢,手工產生IN()列表。有時候比join還快。(註:你不妨在我們的庫上試試看 SELECT goods_id,GROUP_CONCAT(cast(id as char))

FROM bee_shop_goods

WHERE shop_id IN (1519066,1466114,1466110,1466102,1466071,1453929)

GROUP BY goods_id;)

MySQL已經因為這種特定類型的子查詢執行計畫而被批評。

 

何時子查詢是好的

MySQL並不總是把子查詢最佳化得很糟。有時候還是很最佳化的。下面是個例子:

mysql> EXPLAIN SELECT film_id, language_id FROM sakila.film

-> WHERE NOT EXISTS(

-> SELECT * FROM sakila.film_actor

-> WHERE film_actor.film_id = film.film_id

-> )G

……(註:具體文字還是請閱讀《高效能MySQL》吧)

是的,子查詢並不是總是被最佳化得很糟糕,具體問題具體分析,但別忘了 explain 。

explain SELECT goods_sn,goods_attr FROM rs_inventory WHERE inventory_status = 2 and order_goods_id = 0 and inventory_type in(1,5,6) andis_delete = 0 and goods_sn in (select distinct goods_sn from rs_inventory) group by goods_sn

explain SELECT DISTINCT goods_sn,goods_attr FROM rs_inventory WHERE order_goods_id = 0 and inventory_status = 2 and inventory_type in(1,5,6)and is_delete = 0

mysql DEPENDENT SUBQUERY(轉載)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.