Mysql group by語句的最佳化分析

來源:互聯網
上載者:User

預設情況下,MySQL排序所有GROUP BY col1, col2, ....,查詢的方法如同在查詢中指定ORDER BY  col1, col2, ...。如果顯式包括一個包含相同的列的ORDER BY子句,MySQL可以毫不減速地對它進行最佳化,儘管仍然進行排序。

如果查詢包括GROUP BY但你想要避免排序結果的消耗,你可以指定ORDER BY NULL禁止排序。例如:

 代碼如下 複製代碼

INSERT INTO foo

SELECT a, COUNT(*) FROM bar GROUP BY a ORDER BY NULL;


執行GROUP BY子句的最一般的方法:先掃描整個表,然後建立一個新的暫存資料表,表中每個組的所有行應為連續的,最後使用該暫存資料表來找到組並應用聚集合函式(如果有聚集合函式)。在某些情況中,MySQL通過訪問索引就可以得到結果,而不用建立暫存資料表。此類查詢的 EXPLAIN 輸出顯示 Extra列的值為 Using index for group-by。

一。 鬆散索引掃描

1.滿足條件

  查詢針對一個表。

 GROUP BY 使用索引的最左首碼。
 只可以使用MIN()和MAX()聚集合函式,並且它們均指向相同的列。
2.樣本

表t1(c1,c2,c3,c4) 有一個索引 idx(c1,c2,c3):

 代碼如下 複製代碼

SELECT c1, c2 FROM t1 GROUP BY c1, c2;

SELECT DISTINCT c1, c2 FROM t1;

SELECT c1, MIN(c2) FROM t1 GROUP BY c1;

SELECT c1, c2 FROM t1 WHERE c1 < const GROUP BY c1, c2;

SELECT MAX(c3), MIN(c3), c1, c2 FROM t1 WHERE c2 > const GROUP BY c1, c2;

SELECT c2 FROM t1 WHERE c1 < const GROUP BY c1, c2;

SELECT c1, c2 FROM t1 WHERE c3 = const GROUP BY c1, c2;

不滿足條件樣本:

1. 除了MIN()或MAX(),還有其它累積函數,例如:

 代碼如下 複製代碼

SELECT c1, SUM(c2) FROM t1 GROUP BY c1;

2. GROUP BY子句中的域不引用索引開頭,例如:

 

 代碼如下 複製代碼
SELECT c1,c2 FROM t1 GROUP BY c2, c3;

3. 查詢引用了GROUP BY 部分後面的關鍵字的一部分,並且沒有等於常量的等式,例如: 

 代碼如下 複製代碼

SELECT c1,c3 FROM t1 GROUP BY c1, c2;

二。緊湊索引掃描

如果不滿足鬆散索引掃描條件,執行GROUP BY仍然可以不用建立暫存資料表。如果WHERE子句中有範圍條件,該方法唯讀取滿足這些條件的關鍵字。

否則,進行索引掃描。該方法讀取由WHERE子句定義的範圍。

1. GROUP BY 中有一個漏洞,但已經由條件c2 = 'a'覆蓋。

 代碼如下 複製代碼

SELECT c1,c2,c3 FROM t1 WHERE c2 = 'a' GROUP BY c1,c3;

2. GROUP BY 不是滿足最左首碼,但是有一個條件提供該元素的常量:

 代碼如下 複製代碼

SELECT c1,c2,c3 FROM t1 WHERE c1 = 'a' GROUP BY c2,c3;


下面是什麼情況下可以使用loose index scan的情況:

    1 單一表查詢

    2 Group by中只有最左首碼列,沒有其他列

    3 只支援max和min彙總,而且,要彙總的列必須是group by中列所在的索引。

    4 未被group by引用的索引其他部分必須是常量(這句我不是很理解)

    5 不支援首碼索引。

假設t1(c1, c2, c3, c4)表有一個索引包括c1, c2, c3列,以下這些查詢都是可以進行loose index scan的:

 代碼如下 複製代碼

SELECT c1, c2 FROM t1 GROUP BY c1, c2;
SELECT DISTINCT c1, c2 FROM t1;
SELECT c1, MIN(c2) FROM t1 GROUP BY c1;
SELECT c1, c2 FROM t1 WHERE c1 < const GROUP BY c1, c2;
SELECT MAX(c3), MIN(c3), c1, c2 FROM t1 WHERE c2 > const GROUP BY c1, c2;
SELECT c2 FROM t1 WHERE c1 < const GROUP BY c1, c2;
SELECT c1, c2 FROM t1 WHERE c3 = const GROUP BY c1, c2;

這些都是抄的官方文檔,正確性未完全驗證。 

 下面這些SQL都沒有辦法使用loose index scan:


-- 因為彙總函式不是max或者min

 代碼如下 複製代碼
SELECT c1, SUM(c2) FROM t1 GROUP BY c1;

-- 因為不符合最左首碼原則

 代碼如下 複製代碼
SELECT c1, c2 FROM t1 GROUP BY c2, c3;

-- 查詢涉及到了索引的一部分,緊跟group by中的列,但是沒有常量等值語句,加上 WHERE c3 = const就好了

 代碼如下 複製代碼

SELECT c1, c3 FROM t1 GROUP BY c1, c2;

另外一些彙總函式也是可以用到loose index scan的,比如:AVG(DISTINCT), SUM(DISTINCT), 和COUNT(DISTINCT)

以下這些語句也可以:    

 代碼如下 複製代碼

SELECT COUNT(DISTINCT c1), SUM(DISTINCT c1) FROM t1;

SELECT COUNT(DISTINCT c1, c2), COUNT(DISTINCT c2, c1) FROM t1;

很多語句都是從5.7的文檔上摘抄下來的,正確性沒有得到驗證,雖說官方文檔是權威,但是盡信書不如無書,以及紙上得來終覺淺,絕知此事須躬行,明天周末,我逐條測試,然後再更。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.