Mysql 多表聯集查詢效率分析及最佳化

來源:互聯網
上載者:User

一,簡單的關聯子查詢的一種最佳化 .

很多時候,在mysql上實現的子查詢的效能較差,這聽起來實在有點難過。特別有時候,用到IN()子查詢語句時,對於上了某種數量級的表來說,耗時多的難以估計。本人mysql知識所涉不深,只能慢慢摸透箇中玄機了。


假設有這樣的一個exists查詢語句:


select * from table1
where exists
    (select * from table2 where id>=30000 and table1.uuid=table2.uuid);


table1為十萬行級的表,table2為百萬行級的表,本機測試結果用時2.40s。


通過explain可以看到子查詢是一個相互關聯的子查詢(DEPENDENCE SUBQUERY); Mysql會首先對外表table1進行全表掃描,然後根據返回的uuid逐次執行子查詢。如果外層表是一個很大的表,我們可以想象查詢效能會表現得比此次測試更糟糕。


一種簡單的最佳化方案為使用inner join的方法來代替子查詢, 查詢語句則可以改為:


select * from table1 innner join table2 using(uuid) where table2.id>=30000;


本機測試結果用時0.68s。


通過explain可以看到mysql使用了SIMPLE類型(子查詢或union以外的查詢方式); Mysql最佳化器會先過濾table2,然後對table1和table2做笛卡爾積得出結果集後,再通過on條件來過濾資料。

二、多表聯集查詢效率分析及最佳化


1. 多表連線類型
1. 笛卡爾積(交叉串連) 在MySQL中可以為CROSS JOIN或者省略CROSS即JOIN,或者使用','  如:


01.SELECT * FROM table1 CROSS JOIN table2  
02.SELECT * FROM table1 JOIN table2  
03.SELECT * FROM table1,table2 
SELECT * FROM table1 CROSS JOIN table2
SELECT * FROM table1 JOIN table2
SELECT * FROM table1,table2        由於其返回的結果為被串連的兩個資料表的乘積,因此當有WHERE, ON或USING條件的時候一般不建議使用,因為當資料表項目太多的時候,會非常慢。一般使用LEFT [OUTER] JOIN或者RIGHT [OUTER] JOIN

 2.   內串連INNER JOIN 在MySQL中把INNER JOIN叫做等值串連,即需要指定等值串連條件在MySQL中CROSS和INNER JOIN被劃分在一起。 join_table: table_reference [INNER | CROSS] JOIN table_factor [join_condition]

3. MySQL中的外串連,分為左外串連和右串連,即除了返回符合串連條件的結果之外,還要返回左表(左串連)或者右表(右串連)中不符合串連條件的結果,相對應的使用NULL對應。

例子:

user表:

id | name
———
1 | libk
2 | zyfon
3 | daodao

user_action表:

user_id | action
—————
1 | jump
1 | kick
1 | jump
2 | run
4 | swim

sql:


01.select id, name, action from user as u 
02.left join user_action a on u.id = a.user_id 
select id, name, action from user as u
left join user_action a on u.id = a.user_idresult:
id | name    | action
——————————–
1  | libk         | jump           ①
1  | libk         | kick             ②
1  | libk         | jump           ③
2  | zyfon      | run               ④
3  | daodao | null              ⑤

分析:
注意到user_action中還有一個user_id=4, action=swim的紀錄,但是沒有在結果中出現,
而user表中的id=3, name=daodao的使用者在user_action中沒有相應的紀錄,但是卻出現在了結果集中
因為現在是left join,所有的工作以left為準.
結果1,2,3,4都是既在左表又在右表的紀錄,5是只在左表,不在右表的紀錄

 

工作原理:

從左表讀出一條,選出所有與on匹配的右表紀錄(n條)進行串連,形成n條紀錄(包括重複的行,如:結果1和結果3),如果右邊沒有與on條件匹配的表,那串連的欄位都是null.然後繼續讀下一條。

引申:
我們可以用右表沒有on匹配則顯示null的規律, 來找出所有在左表,不在右表的紀錄, 注意用來判斷的那列必須聲明為not null的。
如:
sql:


01.select id, name, action from user as u 
02.left join user_action a on u.id = a.user_id 
03.where a.user_id is NULL 
select id, name, action from user as u
left join user_action a on u.id = a.user_id
where a.user_id is NULL
(注意:

        1.列值為null應該用is null 而不能用=NULL
         2.這裡a.user_id 列必須聲明為 NOT NULL 的.


上面sql的result:
id | name | action
————————–
3 | daodao | NULL

——————————————————————————–

一般用法:

a. LEFT [OUTER] JOIN:

除了返回符合串連條件的結果之外,還需要顯示左表中不符合串連條件的資料列,相對應使用NULL對應


01.SELECT column_name FROM table1 LEFT [OUTER] JOIN table2 ON table1.column=table2.column 
 SELECT column_name FROM table1 LEFT [OUTER] JOIN table2 ON table1.column=table2.column
b. RIGHT [OUTER] JOIN:

RIGHT與LEFT JOIN相似不同的僅僅是除了顯示符合串連條件的結果之外,還需要顯示右表中不符合串連條件的資料列,相應使用NULL對應


01.SELECT column_name FROM table1 RIGHT [OUTER] JOIN table2 ON table1.column=table2.column 
 SELECT column_name FROM table1 RIGHT [OUTER] JOIN table2 ON table1.column=table2.columnTips:

1. on a.c1 = b.c1 等同於 using(c1)
2. INNER JOIN 和 , (逗號) 在語義上是等同的
3. 當 MySQL 在從一個表中檢索資訊時,你可以提示它選擇了哪一個索引。
如果 EXPLAIN 顯示 MySQL 使用了可能的索引列表中錯誤的索引,這個特性將是很有用的。
通過指定 USE INDEX (key_list),你可以告訴 MySQL 使用可能的索引中最合適的一個索引在表中尋找記錄行。
可選的二選一句法 IGNORE INDEX (key_list) 可被用於告訴 MySQL 不使用特定的索引。如:


01.mysql> SELECT * FROM table1 USE INDEX (key1,key2) 
02.-> WHERE key1=1 AND key2=2 AND key3=3; 
03.mysql> SELECT * FROM table1 IGNORE INDEX (key3) 
04.-> WHERE key1=1 AND key2=2 AND key3=3; 
mysql> SELECT * FROM table1 USE INDEX (key1,key2)
-> WHERE key1=1 AND key2=2 AND key3=3;
mysql> SELECT * FROM table1 IGNORE INDEX (key3)
-> WHERE key1=1 AND key2=2 AND key3=3;

2. 表串連的約束條件
 添加顯示條件WHERE, ON, USING

1. WHERE子句

mysql>


01.SELECT * FROM table1,table2 WHERE table1.id=table2.id; 
SELECT * FROM table1,table2 WHERE table1.id=table2.id;
2. ON

mysql>


01.SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id; 
02. 
03.SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id 
04.LEFT JOIN table3 ON table2.id=table3.id; 
SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id;

SELECT * FROM table1 LEFT JOIN table2 ON table1.id=table2.id
LEFT JOIN table3 ON table2.id=table3.id;
3. USING子句,如果串連的兩個表串連條件的兩個列具有相同的名字的話可以使用USING

 例如:

SELECT FROM LEFT JOIN USING ()

 

串連多於兩個表的情況舉例:

mysql>


01.SELECT artists.Artist, cds.title, genres.genre  
02. 
03.FROM cds  
04. 
05.LEFT JOIN genres N cds.genreID = genres.genreID  
06. 
07.LEFT JOIN artists ON cds.artistID = artists.artistID;  
SELECT artists.Artist, cds.title, genres.genre

FROM cds

LEFT JOIN genres N cds.genreID = genres.genreID

LEFT JOIN artists ON cds.artistID = artists.artistID;

 

或者 mysql>


01.SELECT artists.Artist, cds.title, genres.genre  
02. 
03.FROM cds  
04. 
05.LEFT JOIN genres ON cds.genreID = genres.genreID  
06. 
07. LEFT JOIN artists -> ON cds.artistID = artists.artistID 
08. 
09. WHERE (genres.genre = 'Pop');  
SELECT artists.Artist, cds.title, genres.genre

FROM cds

LEFT JOIN genres ON cds.genreID = genres.genreID

 LEFT JOIN artists -> ON cds.artistID = artists.artistID

 WHERE (genres.genre = 'Pop');

--------------------------------------------

 另外需要注意的地方 在MySQL中涉及到多表查詢的時候,需要根據查詢的情況,想好使用哪種串連方式效率更高。

 1. 交叉串連(笛卡爾積)或者內串連 [INNER | CROSS] JOIN

 2. 左外串連LEFT [OUTER] JOIN或者右外串連RIGHT [OUTER] JOIN 注意指定串連條件WHERE, ON,USING.

3. MySQL如何最佳化LEFT JOIN和RIGHT JOIN
在MySQL中,A LEFT JOIN B join_condition執行過程如下:

1)·  根據表A和A依賴的所有表設定表B。

2)·  根據LEFT JOIN條件中使用的所有表(除了B)設定表A。

3)·   LEFT JOIN條件用於確定如何從表B搜尋行。(換句話說,不使用WHERE子句中的任何條件)。

4)·  可以對所有標準聯結進行最佳化,只是只有從它所依賴的所有表讀取的表例外。如果出現循環相依性關係,MySQL提示出現一個錯誤。

5)· 進行所有標準WHERE最佳化。

6)· 如果A中有一行匹配WHERE子句,但B中沒有一行匹配ON條件,則產生另一個B行,其中所有列設定為NULL。

7)· 如果使用LEFT JOIN找出在某些表中不存在的行,並且進行了下面的測試:WHERE部分的col_name IS NULL,其中col_name是一個聲明為 NOT NULL的列,MySQL找到匹配LEFT JOIN條件的一個行後停止(為具體的關鍵字組合)搜尋其它行。

RIGHT JOIN的執行類似LEFT JOIN,只是表的角色反過來。

聯結最佳化器計算表應聯結的順序。LEFT JOIN和STRAIGHT_JOIN強制的表讀順序可以協助聯結最佳化器更快地工作,因為檢查的表交換更少。請注意這說明如果執行下面類型的查詢,MySQL進行全掃描b,因為LEFT JOIN強制它在d之前讀取:


01.SELECT * 
02.FROM a,b LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key) 
03.WHERE b.key=d.key; 
SELECT *
FROM a,b LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
WHERE b.key=d.key;
在這種情況下修複時用a的相反順序,b列於FROM子句中:


01.SELECT * 
02.FROM b,a LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key) 
03.WHERE b.key=d.key; 
SELECT *
FROM b,a LEFT JOIN c ON (c.key=a.key) LEFT JOIN d ON (d.key=a.key)
WHERE b.key=d.key;
MySQL可以進行下面的LEFT JOIN最佳化:如果對於產生的NULL行,WHERE條件總為假,LEFT JOIN變為普通聯結。

例如,在下面的查詢中如果t2.column1為NULL,WHERE 子句將為false:


01.SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5; 
SELECT * FROM t1 LEFT JOIN t2 ON (column1) WHERE t2.column2=5;因此,可以安全地將查詢轉換為普通聯結:


01.SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1; 
SELECT * FROM t1, t2 WHERE t2.column2=5 AND t1.column1=t2.column1;這樣可以更快,因為如果可以使查詢更佳,MySQL可以在表t1之前使用表t2。為了強制使用表順序,使用STRAIGHT_JOIN。


三、利用緩衝來實現

現在社區分享類網站很火,就拿方維購物分享網站舉例說明吧。也是對二次開發方維購物分享網站的一點總結,高手可以飛過。

購物分享的關鍵表有:分享表、圖片表、檔案表、評論表、標籤表、分類表等。
圍繞分享的表就麼多,哇,那也不少啊。當我們查看一個圖片的詳細資料時,就要顯示以上表裡的資訊。顯示圖片所屬的分類、給圖片打的標籤、圖片的評論、有檔案的話還要顯示檔案下載資訊等。難道讓我們6個表去關聯查詢嘛,當然不能這麼多關聯來查詢資料,我們可以只查詢一個表即可,這怎麼講?這裡分享表是主表,我們可以在主表裡建立一個緩衝欄位。比如我們叫cache_data欄位,賦予它text類型,這樣可以儲存很長的字串,而不至於超過欄位的最大儲存。

這個緩衝欄位怎麼用呢?在新增一條分享資訊後,產生分享ID。如果使用者發布圖片或檔案的話,圖片資訊入圖片表,檔案資訊入檔案表,然後把新產生的圖片或檔案資訊寫入到緩衝欄位裡。同樣的,如果使用者有選擇分類、打了標籤的話,也把相應的資訊寫入到緩衝欄位裡。對於評論而言,沒有必要把全部評論存到緩衝欄位裡,因為你不知道他有多少條記錄,可以把最新的10條存到緩衝欄位裡用於顯示,這樣緩衝欄位就變成一個二維或三維數組,序列化後儲存到分享表裡。

array(
 
 'img' = array(
  name => '123.jpg',
  url  => 'http://tech.42xiu.com/123.jpg',
  width  => 800,
  width  => 600,
 ),

 'file' = array(
  name => 'abc.zip',
  download_url  => 'http://tech.42xiu.com/abc.zip',
  size  => 1.2Mb,
 ),

 'category' = array(
  1 => array(
   id => 5,
   name => PHP樂知部落格
  ),

  2 => array(
   id => 6,
   name => PHP技術部落格
  ),
 ),

 'tag' => array(
  tag1
  tag2
  ......
 ),

 'message' => array(
  1 => array(id, uid, name, content, time),
  2 => array(id, uid, name, content, time),
  3 => array(id, uid, name, content, time),
  4 => array(id, uid, name, content, time),
 ),

)
//比如,上面的數組結構,序列化存入資料庫。

UPDATE share SET cache_data=mysql_real_escape_string(serialize($cache_data)) WHERE id=1;這樣查詢就變得簡單了,只需要查詢一條就行了,取到緩衝欄位,把其還原序列化,把數組資訊提取出來,然後顯示到頁面。如果是以前那個結構,在幾十萬的資料量下,估計早崩潰了。資料緩衝的方法也許不是最好的,如果你有更好的方法,可以相互學習,相互討論。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.