執行個體詳解Django的 select_related 和 prefetch_related 函數對 QuerySet 查詢的最佳化(二),djangoqueryset
這是本系列的第二篇,內容是 prefetch_related() 函數的用途、實現途徑、以及使用方法。
本系列的第一篇在這裡
3. prefetch_related()
對於多對多欄位(ManyToManyField)和一對多欄位,可以使用prefetch_related()來進行最佳化。或許你會說,沒有一個叫OneToManyField的東西啊。實際上 ,ForeignKey就是一個多對一的欄位,而被ForeignKey關聯的欄位就是一對多欄位了。
作用和方法
prefetch_related()和select_related()的設計目的很相似,都是為了減少SQL查詢的數量,但是實現的方式不一樣。後者是通過JOIN語句,在SQL查詢內解決問題。但是對於多對多關係,使用SQL語句解決就顯得有些不太明智,因為JOIN得到的表將會很長,會導致SQL語句已耗用時間的增加和記憶體佔用的增加。若有n個對象,每個對象的多對多欄位對應Mi條,就會產生Σ(n)Mi 行的結果表。
prefetch_related()的解決方案是,分別查詢每個表,然後用Python處理他們之間的關係。繼續以上邊的例子進行說明,如果我們要獲得張三所有去過的城市,使用prefetch_related()應該是這麼做:
>>> zhangs = Person.objects.prefetch_related('visitation').get(firstname=u"張",lastname=u"三")>>> for city in zhangs.visitation.all() :... print city...
上述代碼觸發的SQL查詢如下:
SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id` FROM `QSOptimize_person` WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '張'); SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)WHERE `QSOptimize_person_visitation`.`person_id` IN (1);
第一條SQL查詢僅僅是擷取張三的Person對象,第二條比較關鍵,它選取關係表`QSOptimize_person_visitation`中`person_id`為張三的行,然後和`city`表內聯(INNER JOIN 也叫等值串連)得到結果表。
+----+-----------+----------+-------------+-----------+| id | firstname | lastname | hometown_id | living_id |+----+-----------+----------+-------------+-----------+| 1 | 張 | 三 | 3 | 1 |+----+-----------+----------+-------------+-----------+1 row in set (0.00 sec)+-----------------------+----+-----------+-------------+| _prefetch_related_val | id | name | province_id |+-----------------------+----+-----------+-------------+| 1 | 1 | 武漢市 | 1 || 1 | 2 | 廣州市 | 2 || 1 | 3 | 十堰市 | 1 |+-----------------------+----+-----------+-------------+3 rows in set (0.00 sec)
顯然張三武漢、廣州、十堰都去過。
又或者,我們要獲得湖北的所有城市名,可以這樣:
>>> hb = Province.objects.prefetch_related('city_set').get(name__iexact=u"湖北省")>>> for city in hb.city_set.all():... city.name...
觸發的SQL查詢:
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`name` LIKE '湖北省' ;SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` WHERE `QSOptimize_city`.`province_id` IN (1);
得到的表:
+----+-----------+| id | name |+----+-----------+| 1 | 湖北省 |+----+-----------+1 row in set (0.00 sec)+----+-----------+-------------+| id | name | province_id |+----+-----------+-------------+| 1 | 武漢市 | 1 || 3 | 十堰市 | 1 |+----+-----------+-------------+2 rows in set (0.00 sec)
我們可以看見,prefetch使用的是 IN 語句實現的。這樣,在QuerySet中的對象數量過多的時候,根據資料庫特性的不同有可能造成效能問題。
使用方法
*lookups 參數
prefetch_related()在Django < 1.7 只有這一種用法。和select_related()一樣,prefetch_related()也支援深度查詢,例如要獲得所有姓張的人去過的省:
>>> zhangs = Person.objects.prefetch_related('visitation__province').filter(firstname__iexact=u'張')>>> for i in zhangs:... for city in i.visitation.all():... print city.province...
觸發的SQL:
SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`, `QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id` FROM `QSOptimize_person` WHERE `QSOptimize_person`.`firstname` LIKE '張' ;SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`,`QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)WHERE `QSOptimize_person_visitation`.`person_id` IN (1, 4);SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name` FROM `QSOptimize_province` WHERE `QSOptimize_province`.`id` IN (1, 2);
獲得的結果:
+----+-----------+----------+-------------+-----------+| id | firstname | lastname | hometown_id | living_id |+----+-----------+----------+-------------+-----------+| 1 | 張 | 三 | 3 | 1 || 4 | 張 | 六 | 2 | 2 |+----+-----------+----------+-------------+-----------+2 rows in set (0.00 sec)+-----------------------+----+-----------+-------------+| _prefetch_related_val | id | name | province_id |+-----------------------+----+-----------+-------------+| 1 | 1 | 武漢市 | 1 || 1 | 2 | 廣州市 | 2 || 4 | 2 | 廣州市 | 2 || 1 | 3 | 十堰市 | 1 |+-----------------------+----+-----------+-------------+4 rows in set (0.00 sec)+----+-----------+| id | name |+----+-----------+| 1 | 湖北省 || 2 | 廣東省 |+----+-----------+2 rows in set (0.00 sec)
值得一提的是,鏈式prefetch_related會將這些查詢添加起來,就像1.7中的select_related那樣。
要注意的是,在使用QuerySet的時候,一旦在鏈式操作中改變了資料庫請求,之前用prefetch_related緩衝的資料將會被忽略掉。這會導致Django重新請求資料庫來獲得相應的資料,從而造成效能問題。這裡提到的改變資料庫請求指各種filter()、exclude()等等最終會改變SQL代碼的操作。而all()並不會改變最終的資料庫請求,因此是不會導致重新請求資料庫的。
舉個例子,要擷取所有人訪問過的城市中帶有“市”字的城市,這樣做會導致大量的SQL查詢:
plist = Person.objects.prefetch_related('visitation')[p.visitation.filter(name__icontains=u"市") for p in plist]
因為資料庫中有4人,導致了2+4次SQL查詢:
SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`, `QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id` FROM `QSOptimize_person`;SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`,`QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)WHERE `QSOptimize_person_visitation`.`person_id` IN (1, 2, 3, 4);SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`) WHERE(`QSOptimize_person_visitation`.`person_id` = 1 AND `QSOptimize_city`.`name` LIKE '%市%' );SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`) WHERE (`QSOptimize_person_visitation`.`person_id` = 2 AND `QSOptimize_city`.`name` LIKE '%市%' ); SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city`INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`) WHERE (`QSOptimize_person_visitation`.`person_id` = 3 AND `QSOptimize_city`.`name` LIKE '%市%' );SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city` INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`) WHERE (`QSOptimize_person_visitation`.`person_id` = 4 AND `QSOptimize_city`.`name` LIKE '%市%' );
詳細分析一下這些請求事件。
眾所周知,QuerySet是lazy的,要用的時候才會去訪問資料庫。運行到第二行Python代碼時,for迴圈將plist看做iterator,這會觸發資料庫查詢。最初的兩次SQL查詢就是prefetch_related導致的。
雖然已經查詢結果中包含所有所需的city的資訊,但因為在迴圈體中對Person.visitation進行了filter操作,這顯然改變了資料庫請求。因此這些操作會忽略掉之前緩衝到的資料,重新進行SQL查詢。
但是如果有這樣的需求了應該怎麼辦呢?在Django >= 1.7,可以通過下一節的Prefetch對象來實現,如果你的環境是Django < 1.7,可以在Python中完成這部分操作。
plist = Person.objects.prefetch_related('visitation')[[city for city in p.visitation.all() if u"市" in city.name] for p in plist]
Prefetch 對象
在Django >= 1.7,可以用Prefetch對象來控制prefetch_related函數的行為。
註:由於我沒有安裝1.7版本的Django環境,本節內容是參考Django文檔寫的,沒有進行實際的測試。
Prefetch對象的特徵:
繼續上面的例子,擷取所有人訪問過的城市中帶有“武”字和“州”的城市:
wus = City.objects.filter(name__icontains = u"武")zhous = City.objects.filter(name__icontains = u"州")plist = Person.objects.prefetch_related( Prefetch('visitation', queryset = wus, to_attr = "wu_city"), Prefetch('visitation', queryset = zhous, to_attr = "zhou_city"),)[p.wu_city for p in plist][p.zhou_city for p in plist]
註:這段代碼沒有在實際環境中測試過,若有不正確的地方請指正。
順帶一提,Prefetch對象和字串參數可以混用。
None
可以通過傳入一個None來清空之前的prefetch_related。就像這樣:
>>> prefetch_cleared_qset = qset.prefetch_related(None)
小結
問一個django中queryset的問題
from itertools import chainfrom operator import attrgetter#...post = Post.objects.get(pk=post_id) # 擷取博文likes = likes = post.like_set.all() # 擷取喜愛資訊# likes = Like.objects.filter(post=post)reblogs = Post.objects.filter(reblog_from=post) # 擷取轉寄資訊# 合并喜愛及轉寄資訊,並按時間逆序排序notes = sorted(chain(likes, reblogs), key=attrgetter('created_at'), reverse=True)#...使用 itertools.chain 函數合并可迭代對象,查詢集為可迭代對象:
>>>list(chain([1,2,3],'abc'))>>>[1,2,3,'a','b','c']使用 sorted 函數排序(按對象屬性排序)。
DJANGO問題,queryset的delete方法
你試試下面這中寫法,看是不是會全部刪除
> from models import Entry
> query = Entry.all()
> entries =query.fetch(1)
> db.delete(entries)