1. 執行個體的背景說明
假定一個個人資訊系統,需要記錄系統中各個人的故鄉、居住地、以及到過的城市。資料庫設計如下:
Models.py 內容如下:
from django.db import models class Province(models.Model): name = models.CharField(max_length=10) def __unicode__(self): return self.name class City(models.Model): name = models.CharField(max_length=5) province = models.ForeignKey(Province) def __unicode__(self): return self.name class Person(models.Model): firstname = models.CharField(max_length=10) lastname = models.CharField(max_length=10) visitation = models.ManyToManyField(City, related_name = "visitor") hometown = models.ForeignKey(City, related_name = "birth") living = models.ForeignKey(City, related_name = "citizen") def __unicode__(self): return self.firstname + self.lastname
注1:建立的app名為“QSOptimize”
注2:為了簡化起見,`qsoptimize_province` 表中只有2條資料:湖北省和廣東省,`qsoptimize_city`表中只有三條資料:武漢市、十堰市和廣州市
2. select_related()
對於一對一欄位(OneToOneField)和外鍵欄位(ForeignKey),可以使用select_related 來對QuerySet進行最佳化
作用和方法
在對QuerySet使用select_related()函數後,Django會擷取相應外鍵對應的對象,從而在之後需要的時候不必再查詢資料庫了。以上例說明,如果我們需要列印資料庫中的所有市及其所屬省份,最直接的做法是:
>>> citys = City.objects.all()>>> for c in citys:... print c.province...
這樣會導致線性SQL查詢,如果對象數量n太多,每個對象中有k個外鍵欄位的話,就會導致n*k+1次SQL查詢。在本例中,因為有3個city對象就導致了4次SQL查詢:
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`FROM `QSOptimize_city` SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 1 ; SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 2 ; SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 1 ;
註:這裡的SQL語句是直接從Django的logger:‘django.db.backends'輸出出來的
如果我們使用select_related()函數:
>>> citys = City.objects.select_related().all()>>> for c in citys:... print c.province...
就只有一次SQL查詢,顯然大大減少了SQL查詢的次數:
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,`QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name`FROM`QSOptimize_city`INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) ;
這裡我們可以看到,Django使用了INNER JOIN來獲得省份的資訊。順便一提這條SQL查詢得到的結果如下:
+----+-----------+-------------+----+-----------+| id | name | province_id | id | name |+----+-----------+-------------+----+-----------+| 1 | 武漢市 | 1 | 1 | 湖北省 || 2 | 廣州市 | 2 | 2 | 廣東省 || 3 | 十堰市 | 1 | 1 | 湖北省 |+----+-----------+-------------+----+-----------+3 rows in set (0.00 sec)
使用方法
函數支援如下三種用法:
*fields 參數
select_related() 接受可變長參數,每個參數是需要擷取的外鍵(父表的內容)的欄位名,以及外鍵的外鍵的欄位名、外鍵的外鍵的外鍵…。若要選擇外鍵的外鍵需要使用兩個底線“__”來串連。
例如我們要獲得張三的現居省份,可以用如下方式:
>>> zhangs = Person.objects.select_related('living__province').get(firstname=u"張",lastname=u"三")>>> zhangs.living.province
觸發的SQL查詢如下:
SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`,`QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`,`QSOptimize_province`.`name`FROM `QSOptimize_person`INNER JOIN `QSOptimize_city` ON (`QSOptimize_person`.`living_id` = `QSOptimize_city`.`id`)INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`)WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '張' );
可以看到,Django使用了2次 INNER JOIN 來完成請求,獲得了city表和province表的內容並添加到結果表的相應列,這樣在調用 zhangs.living的時候也不必再次進行SQL查詢。
+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+| id | firstname | lastname | hometown_id | living_id | id | name | province_id | id | name |+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+| 1 | 張 | 三 | 3 | 1 | 1 | 武漢市 | 1 | 1 | 湖北省 |+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+1 row in set (0.00 sec)
然而,未指定的外鍵則不會被添加到結果中。這時候如果需要擷取張三的故鄉就會進行SQL查詢了:
>>> zhangs.hometown.province SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`,`QSOptimize_city`.`province_id`FROM `QSOptimize_city`WHERE `QSOptimize_city`.`id` = 3 ; SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 1
同時,如果不指定外鍵,就會進行兩次查詢。如果深度更深,查詢的次數更多。
值得一提的是,從Django 1.7開始,select_related()函數的作用方式改變了。在本例中,如果要同時獲得張三的故鄉和現居地的省份,在1.7以前你只能這樣做:
>>> zhangs = Person.objects.select_related('hometown__province','living__province').get(firstname=u"張",lastname=u"三")>>> zhangs.hometown.province>>> zhangs.living.province
但是1.7及以上版本,你可以像和queryset的其他函數一樣進行鏈式操作:
>>> zhangs = Person.objects.select_related('hometown__province').select_related('living__province').get(firstname=u"張",lastname=u"三")>>> zhangs.hometown.province>>> zhangs.living.province
如果你在1.7以下版本這樣做了,你只會獲得最後一個操作的結果,在本例中就是只有現居地而沒有故鄉。在你列印故鄉省份的時候就會造成兩次SQL查詢。
depth 參數
select_related() 接受depth參數,depth參數可以確定select_related的深度。Django會遞迴遍曆指定深度內的所有的OneToOneField和ForeignKey。以本例說明:
>>> zhangs = Person.objects.select_related(depth = d)
d=1 相當於 select_related(‘hometown','living')
d=2 相當於 select_related(‘hometown__province','living__province')
無參數
select_related() 也可以不加參數,這樣表示要求Django儘可能深的select_related。例如:zhangs = Person.objects.select_related().get(firstname=u”張”,lastname=u”三”)。但要注意兩點:
Django本身內建一個上限,對於特別複雜的表關係,Django可能在你不知道的某處跳出遞迴,從而與你想的做法不一樣。具體限制是怎麼工作的我表示不清楚。
Django並不知道你實際要用的欄位有哪些,所以會把所有的欄位都抓進來,從而會造成不必要的浪費而影響效能。
小結
- select_related主要針一對一和多對一關聯性進行最佳化。
- select_related使用SQL的JOIN語句進行最佳化,通過減少SQL查詢的次數來進行最佳化、提高效能。
- 可以通過可變長參數指定需要select_related的欄位名。也可以通過使用雙底線“__”串連欄位名來實現指定的遞迴查詢。沒有指定的欄位不會緩衝,沒有指定的深度不會緩衝,如果要訪問的話Django會再次進行SQL查詢。
- 也可以通過depth參數指定遞迴的深度,Django會自動緩衝指定深度內所有的欄位。如果要訪問指定深度外的欄位,Django會再次進行SQL查詢。
- 也接受無參數的調用,Django會儘可能深的遞迴查詢所有的欄位。但注意有Django遞迴的限制和效能的浪費。
- Django >= 1.7,鏈式調用的select_related相當於使用可變長參數。Django < 1.7,鏈式調用會導致前邊的select_related失效,只保留最後一個。