Python深入06——python的記憶體管理詳解_python

來源:互聯網
上載者:User

語言的記憶體管理是語言設計的一個重要方面。它是決定語言效能的重要因素。無論是C語言的手工管理,還是Java的記憶體回收,都成為語言最重要的特徵。這裡以Python語言為例子,說明一門動態類型的、物件導向的語言的記憶體管理方式。

對象的記憶體使用量

指派陳述式是語言最常見的功能了。但即使是最簡單的指派陳述式,也可以很有內涵。Python的指派陳述式就很值得研究。

a = 1

整數1為一個對象。而a是一個引用。利用指派陳述式,引用a指向對象1。Python是動態類型的語言(參考動態類型),對象與引用分離。Python像使用“筷子”那樣,通過引用來接觸和翻動真正的食物——對象。

 引用和對象

為了探索對象在記憶體的儲存,我們可以求助於Python的內建函數id()。它用於返回對象的身份(identity)。其實,這裡所謂的身份,就是該對象的記憶體位址。

a = 1print(id(a))print(hex(id(a)))

在我的電腦上,它們返回的是:

11246696
'0xab9c68'

分別為記憶體位址的十進位和十六進位表示。 

在Python中,整數和短小的字元,Python都會緩衝這些對象,以便重複使用。當我們建立多個等於1的引用時,實際上是讓所有這些引用指向同一個對象。

a = 1b = 1print(id(a))print(id(b))

上面程式返回

11246696
11246696

可見a和b實際上是指向同一個對象的兩個引用。

為了檢驗兩個引用指向同一個對象,我們可以用is關鍵字。is用於判斷兩個引用所指的對象是否相同。

# Truea = 1b = 1print(a is b)# Truea = "good"b = "good"print(a is b)# Falsea = "very good morning"b = "very good morning"print(a is b)# Falsea = []b = []print(a is b)

上面的注釋為相應的運行結果。可以看到,由於Python緩衝了整數和短字串,因此每個對象只存有一份。比如,所有整數1的引用都指向同一對象。即使使用指派陳述式,也只是創造了新的引用,而不是對象本身。長的字串和其它對象可以有多個相同的對象,可以使用指派陳述式建立出新的對象。

 在Python中,每個對象都有存有指向該對象的引用總數,即引用計數(reference count)。

我們可以使用sys包中的getrefcount(),來查看某個對象的引用計數。需要注意的是,當使用某個引用作為參數,傳遞給getrefcount()時,參數實際上建立了一個臨時的引用。因此,getrefcount()所得到的結果,會比期望的多1。

from sys import getrefcounta = [1, 2, 3]print(getrefcount(a))b = aprint(getrefcount(b))

由於上述原因,兩個getrefcount將返回2和3,而不是期望的1和2。

對象引用對象

Python的一個容器物件(container),比如表、詞典等,可以包含多個對象。實際上,容器物件中包含的並不是元素對象本身,是指向各個元素對象的引用。

我們也可以自訂一個對象,並引用其它對象:

class from_obj(object):  def __init__(self, to_obj):    self.to_obj = to_objb = [1,2,3]a = from_obj(b)print(id(a.to_obj))print(id(b))

可以看到,a引用了對象b。

對象引用對象,是Python最基本的構成方式。即使是a = 1這一賦值方式,實際上是讓詞典的一個索引值"a"的元素引用整數對象1。該詞典對象用於記錄所有的全域引用。該詞典引用了整數對象1。我們可以通過內建函數globals()來查看該詞典。

 當一個對象A被另一個對象B引用時,A的引用計數將增加1。

from sys import getrefcounta = [1, 2, 3]print(getrefcount(a))b = [a, a]print(getrefcount(a))

由於對象b引用了兩次a,a的引用計數增加了2。

容器物件的引用可能構成很複雜的拓撲結構。我們可以用objgraph包來繪製其參考關聯性,比如

x = [1, 2, 3]y = [x, dict(key1=x)]z = [y, (x, y)]import objgraphobjgraph.show_refs([z], filename='ref_topo.png')

objgraph是Python的一個第三方包。安裝之前需要安裝xdot。

sudo apt-get install xdotsudo pip install objgraph

兩個對象可能相互引用,從而構成所謂的引用環(reference cycle)。

a = []b = [a]a.append(b)

即使是一個對象,只需要自己引用自己,也能構成引用環。

a = []a.append(a)print(getrefcount(a))

引用環會給記憶體回收機制帶來很大的麻煩,我將在後面詳細敘述這一點。

 引用減少

某個對象的引用計數可能減少。比如,可以使用del關鍵字刪除某個引用:

from sys import getrefcounta = [1, 2, 3]b = aprint(getrefcount(b))del aprint(getrefcount(b))

del也可以用於刪除容器元素中的元素,比如:

a = [1,2,3]del a[0]print(a)

如果某個引用指向對象A,當這個引用被重新定向到某個其他對象B時,對象A的引用計數減少:

from sys import getrefcounta = [1, 2, 3]b = aprint(getrefcount(b))a = 1print(getrefcount(b))

記憶體回收

吃太多,總會變胖,Python也是這樣。當Python中的對象越來越多,它們將佔據越來越大的記憶體。不過你不用太擔心Python的體形,它會乖巧的在適當的時候“減肥”,啟動記憶體回收(garbage collection),將沒用的對象清除。在許多語言中都有記憶體回收機制,比如Java和Ruby。儘管最終目的都是塑造苗條的提醒,但不同語言的減肥方案有很大的差異 (這一點可以對比本文和Java記憶體管理與記憶體回收)。

從基本原理上,當Python的某個對象的引用計數降為0時,說明沒有任何引用指向該對象,該對象就成為要被回收的垃圾了。比如某個建立對象,它被分配給某個引用,對象的引用計數變為1。如果引用被刪除,對象的引用計數為0,那麼該對象就可以被記憶體回收。比如下面的表:

a = [1, 2, 3]del a

del a後,已經沒有任何引用指向之前建立的[1, 2, 3]這個表。使用者不可能通過任何方式接觸或者動用這個對象。這個對象如果繼續待在記憶體裡,就成了不健康的脂肪。當記憶體回收啟動時,Python掃描到這個引用計數為0的對象,就將它所佔據的記憶體清空。

然而,減肥是個昂貴而費力的事情。記憶體回收時,Python不能進行其它的任務。頻繁的記憶體回收將大大降低Python的工作效率。如果記憶體中的對象不多,就沒有必要總啟動記憶體回收。所以,Python只會在特定條件下,自動啟動記憶體回收。當Python運行時,會記錄其中指派至(object allocation)和取消指派至(object deallocation)的次數。當兩者的差值高於某個閾值時,記憶體回收才會啟動。

我們可以通過gc模組的get_threshold()方法,查看該閾值:

import gcprint(gc.get_threshold())

返回(700, 10, 10),後面的兩個10是與分代回收相關的閾值,後面可以看到。700即是記憶體回收啟動的閾值。可以通過gc中的set_threshold()方法重新設定。

我們也可以手動啟動記憶體回收,即使用gc.collect()。

分代回收

Python同時採用了分代(generation)回收的策略。這一策略的基本假設是,存活時間越久的對象,越不可能在後面的程式中變成垃圾。我們的程式往往會產生大量的對象,許多個物件很快產生和消失,但也有一些對象長期被使用。出於信任和效率,對於這樣一些“長壽”對象,我們相信它們的用處,所以減少在記憶體回收中掃描它們的頻率。

Python將所有的對象分為0,1,2三代。所有的建立對象都是0代對象。當某一代對象經曆過記憶體回收,依然存活,那麼它就被歸入下一代對象。記憶體回收啟動時,一定會掃描所有的0代對象。如果0代經過一定次數記憶體回收,那麼就啟動對0代和1代的掃描清理。當1代也經曆了一定次數的記憶體回收後,那麼會啟動對0,1,2,即對所有對象進行掃描。

這兩個次數即上面get_threshold()返回的(700, 10, 10)返回的兩個10。也就是說,每10次0代記憶體回收,會配合1次1代的記憶體回收;而每10次1代的記憶體回收,才會有1次的2代記憶體回收。

同樣可以用set_threshold()來調整,比如對2代對象進行更頻繁的掃描。

import gcgc.set_threshold(700, 10, 5)

孤立的引用環

引用環的存在會給上面的記憶體回收機制帶來很大的困難。這些引用環可能構成無法使用,但引用計數不為0的一些對象。

a = []b = [a]a.append(b)del adel b

上面我們先建立了兩個表對象,並引用對方,構成一個引用環。刪除了a,b引用之後,這兩個對象不可能再從程式中調用,就沒有什麼用處了。但是由於引用環的存在,這兩個對象的引用計數都沒有降到0,不會被記憶體回收。

孤立的引用環

 為了回收這樣的引用環,Python複製每個對象的引用計數,可以記為gc_ref。假設,每個對象i,該計數為gc_ref_i。Python會遍曆所有的對象i。對於每個對象i引用的對象j,將相應的gc_ref_j減1。

遍曆後的結果

在結束遍曆後,gc_ref不為0的對象,和這些對象引用的對象,以及繼續更下遊引用的對象,需要被保留。而其它的對象則被記憶體回收。

 總結

Python作為一種動態類型的語言,其對象和引用分離。這與曾經的面向過程語言有很大的區別。為了有效釋放記憶體,Python內建了記憶體回收的支援。Python採取了一種相對簡單的記憶體回收機制,即引用計數,並因此需要解決孤立引用環的問題。

Python與其它語言既有共通性,又有特別的地方。對該記憶體管理機制的理解,是提高Python效能的重要一步。

以上就是本文的全部內容,希望對大家的學習有所協助,也希望大家多多支援雲棲社區。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.