問題是在Python中進行迴圈的時候產生的,熟悉Python的都知道,它沒有類似其它語言中的for迴圈, 只能通過for in的方式進行迴圈遍曆。最典型的應用就是通過range函數產生一個列表,然後用for in進行操作,如下:
代碼如下:
#!/usr/bin/env python
for i in range(10):
print i
代碼的意義很好理解,range會產生一個列表,用for in最這個列表進行遍曆,就有和類似for(i = 0;i
代碼如下:
測試代碼 佔用記憶體
range(100) 2.0MB
range(10000) 2.2MB
range(100000) 3.8MB
range(1000000) 19.5MB
range(10000000) 168.5MB
range(100000000) 1465.8MB
可以看到,隨著基數的加大,佔用記憶體呈幾何倍數增加,顯然在進行大迴圈操作的時候,要避免使用range。
為瞭解決上述問題,python提供了另外一個函數xrange,這個函數和range非常相似,但是佔用記憶體比range會小很多,相關的說明可以查看這裡,經過測試,用xrange產生的對象,不管參數是多少,佔用記憶體幾乎都沒有變化。問題又來了,xrange內部是如何?的,為什麼和range效能相差這麼大?為了驗證我的猜想,先嘗試用python實作類別似xrange的函數zrange:
代碼如下:
#!/usr/bin/env python
class zrange(object):
def __init__(self,stop):
self.__pointer=0
self.stop=stop
def __iter__(self):
return self
def next(self): #python3.0中,改用__next__
if self.__pointer >= self.stop:
raise StopIteration
else:
self.__pointer = self.__pointer + 1
return self.__pointer-1
test = zrange(10000000)
for i in test:
print i
啟動並執行結果和xrange一樣, 對zrange進行記憶體佔用測試,發現和xrange一樣,參數的大小對記憶體佔用幾乎沒有影響。那麼它和range的區別在哪裡呢?
前面說到,range產生的是一個列表,而無論是自訂的zrange還是系統內建的xrange產生的都是一個對象,像xrange或者zrange產生的對象,就叫做可迭代對象, 它給外部提供了一種遍曆其內部元素,而不用關心其內部實現的方法。上面zrange的實現中, 最關鍵的實現是建立了一個內部指標__pointer, 它記錄當前的訪問的位置, 下次的訪問就可以通過指標的狀態進行相應的操作。
Python或者其它語言中,還有很多類似通過迭代的方式訪問對象內容的,如讀取一個檔案中的內容:
代碼如下:
#!/usr/bin/env python
f = open('zrange.py','r')
while True:
line = f.readline()
if not line:
break
print line.strip()
f.close()
大家都知道用readline要比reandlines節省資源,其實readline和readlines就類似於xrange和range,一個是通過指標記錄當前位置,下次訪問把指標往前移動一個單位,另外一個是直接把所有內容存放到記憶體當中。檔案操作函數中,還可以通過seek手動的調整指標的位置,從而達到跳過或者重複讀取某些內容的目的。
可以說,迭代器的實現中,其內部指標是節省資源,讓迭代正常啟動並執行關鍵。