執行個體詳解Django的 select_related 和 prefetch_related 函數對 QuerySet 查詢的最佳化(一),djangoqueryset

來源:互聯網
上載者:User

執行個體詳解Django的 select_related 和 prefetch_related 函數對 QuerySet 查詢的最佳化(一),djangoqueryset

在資料庫有外鍵的時候,使用 select_related() 和 prefetch_related() 可以很好的減少資料庫請求的次數,從而提高效能。本文通過一個簡單的例子詳解這兩個函數的作用。雖然QuerySet的文檔中已經詳細說明了,但本文試圖從QuerySet觸發的SQL語句來分析工作方式,從而進一步瞭解Django具體的運作方式。


本來打算寫成一篇單獨的文章的,但是寫完select_related()之後發現長度已經有點長了,所以還是寫成系列,大概在兩到三篇。整個完成之後將會在這裡添加上其他文章的連結。


1. 執行個體的背景說明

假定一個個人資訊系統,需要記錄系統中各個人的故鄉、居住地、以及到過的城市。資料庫設計如下:


Models.py 內容如下:

from django.db import modelsclass Province(models.Model):    name = models.CharField(max_length=10)    def __unicode__(self):        return self.nameclass City(models.Model):    name = models.CharField(max_length=5)    province = models.ForeignKey(Province)    def __unicode__(self):        return self.nameclass Person(models.Model):    firstname  = models.CharField(max_length=10)    lastname   = models.CharField(max_length=10)    visitation = models.ManyToManyField(City, related_name = "visitor")    hometown   = models.ForeignKey(City, related_name = "birth")    living     = models.ForeignKey(City, related_name = "citizen")    def __unicode__(self):        return self.firstname + self.lastname

注1:建立的app名為“QSOptimize”

注2:為了簡化起見,`qsoptimize_province` 表中只有2條資料:湖北省和廣東省,`qsoptimize_city`表中只有三條資料:武漢市、十堰市和廣州市


2. select_related()

對於一對一欄位(OneToOneField)和外鍵欄位(ForeignKey),可以使用select_related 來對QuerySet進行最佳化


作用和方法

在對QuerySet使用select_related()函數後,Django會擷取相應外鍵對應的對象,從而在之後需要的時候不必再查詢資料庫了。以上例說明,如果我們需要列印資料庫中的所有市及其所屬省份,最直接的做法是:

>>> citys = City.objects.all()>>> for c in citys:...   print c.province...
這樣會導致線性SQL查詢,如果對象數量n太多,每個對象中有k個外鍵欄位的話,就會導致n*k+1次SQL查詢。在本例中,因為有3個city對象就導致了4次SQL查詢:
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`FROM `QSOptimize_city`SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 1 ;SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 2 ;SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province`WHERE `QSOptimize_province`.`id` = 1 ;

註:這裡的SQL語句是直接從Django的logger:‘django.db.backends’輸出出來的



如果我們使用select_related()函數:

>>> citys = City.objects.select_related().all()>>> for c in citys:...   print c.province...

就只有一次SQL查詢,顯然大大減少了SQL查詢的次數:

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM`QSOptimize_city` INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) ;

這裡我們可以看到,Django使用了INNER JOIN來獲得省份的資訊。順便一提這條SQL查詢得到的結果如下:

+----+-----------+-------------+----+-----------+| id | name      | province_id | id | name      |+----+-----------+-------------+----+-----------+|  1 | 武漢市    |           1 |  1 | 湖北省    ||  2 | 廣州市    |           2 |  2 | 廣東省    ||  3 | 十堰市    |           1 |  1 | 湖北省    |+----+-----------+-------------+----+-----------+3 rows in set (0.00 sec)


使用方法函數支援如下三種用法: *fields 參數

select_related() 接受可變長參數,每個參數是需要擷取的外鍵(父表的內容)的欄位名,以及外鍵的外鍵的欄位名、外鍵的外鍵的外鍵...。若要選擇外鍵的外鍵需要使用兩個底線“__”來串連。

例如我們要獲得張三的現居省份,可以用如下方式:

>>> zhangs = Person.objects.select_related('living__province').get(firstname=u"張",lastname=u"三")>>> zhangs.living.province

觸發的SQL查詢如下:

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`, `QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`, `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`, `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_person` INNER JOIN `QSOptimize_city` ON (`QSOptimize_person`.`living_id` = `QSOptimize_city`.`id`) INNER JOIN `QSOptimize_province` ON (`QSOptimize_city`.`province_id` = `QSOptimize_province`.`id`) WHERE (`QSOptimize_person`.`lastname` = '三'  AND `QSOptimize_person`.`firstname` = '張' );

可以看到,Django使用了2次 INNER JOIN 來完成請求,獲得了city表和province表的內容並添加到結果表的相應列,這樣在調用 zhangs.living的時候也不必再次進行SQL查詢。

+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+| id | firstname | lastname | hometown_id | living_id | id | name      | province_id | id | name      |+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+|  1 | 張        | 三       |           3 |         1 |  1 | 武漢市    |   1         |  1 | 湖北省    |+----+-----------+----------+-------------+-----------+----+-----------+-------------+----+-----------+1 row in set (0.00 sec)



然而,未指定的外鍵則不會被添加到結果中。這時候如果需要擷取張三的故鄉就會進行SQL查詢了:

>>> zhangs.hometown.province

SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` WHERE `QSOptimize_city`.`id` = 3 ;SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`id` = 1 

同時,如果不指定外鍵,就會進行兩次查詢。如果深度更深,查詢的次數更多。



值得一提的是,從Django 1.7開始,select_related()函數的作用方式改變了。在本例中,如果要同時獲得張三的故鄉和現居地的省份,在1.7以前你 只能這樣做:

>>> zhangs = Person.objects.select_related('hometown__province','living__province').get(firstname=u"張",lastname=u"三")>>> zhangs.hometown.province>>> zhangs.living.province

但是1.7及以上版本,你可以像和queryset的其他函數一樣進行鏈式操作:

>>> zhangs = Person.objects.select_related('hometown__province').select_related('living__province').get(firstname=u"張",lastname=u"三")>>> zhangs.hometown.province>>> zhangs.living.province
如果你在1.7以下版本這樣做了,你只會獲得最後一個操作的結果,在本例中就是只有現居地而沒有故鄉。在你列印故鄉省份的時候就會造成兩次SQL查詢。

depth  參數

select_related() 接受depth參數,depth參數可以確定select_related的深度。Django會遞迴遍曆指定深度內的所有的OneToOneField和ForeignKey。以本例說明:

>>> zhangs = Person.objects.select_related(depth = d)

d=1  相當於 select_related('hometown','living')

d=2  相當於 select_related('hometown__province','living__province')

無參數 

select_related() 也可以不加參數,這樣表示要求Django儘可能深的select_related。例如:zhangs = Person.objects.select_related().get(firstname=u"張",lastname=u"三")。但要注意兩點:

 

小結

問一個django中queryset的問題

from itertools import chainfrom operator import attrgetter#...post = Post.objects.get(pk=post_id) # 擷取博文likes = likes = post.like_set.all() # 擷取喜愛資訊# likes = Like.objects.filter(post=post)reblogs = Post.objects.filter(reblog_from=post) # 擷取轉寄資訊# 合并喜愛及轉寄資訊,並按時間逆序排序notes = sorted(chain(likes, reblogs), key=attrgetter('created_at'), reverse=True)#...使用 itertools.chain 函數合并可迭代對象,查詢集為可迭代對象:
>>>list(chain([1,2,3],'abc'))>>>[1,2,3,'a','b','c']使用 sorted 函數排序(按對象屬性排序)。

 
DJANGO問題,queryset的delete方法

你試試下面這中寫法,看是不是會全部刪除
> from models import Entry
> query = Entry.all()
> entries =query.fetch(1)
> db.delete(entries)
 

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.