產生器是迭代器,同時也並不僅僅是迭代器,不過迭代器之外的用途實在是不多,所以我們可以大聲地說:產生器提供了非常方便的自訂迭代器的途徑。
這是函數式編程指南的最後一篇,似乎拖了一個星期才寫好,嗯……
轉載請註明原作者和原文地址:)
4. 產生器(generator)4.1. 產生器簡介
首先請確信,產生器就是一種迭代器。產生器擁有next方法並且行為與迭代器完全相同,這意味著產生器也可以用於Python的for迴圈中。另外,對於產生器的特殊文法支援使得編寫一個產生器比自訂一個常規的迭代器要簡單不少,所以產生器也是最常用到的特性之一。
從Python 2.5開始,[PEP 342:通過增強產生器實現協同程式]的實現為產生器加入了更多的特性,這意味著產生器還可以完成更多的工作。這部分我們會在稍後的部分介紹。
4.2. 產生器函數4.2.1. 使用產生器函數定義產生器
如何擷取一個產生器?首先來看一小段代碼:
>>> def get_0_1_2():... yield 0... yield 1... yield 2...>>> get_0_1_2<function get_0_1_2 at 0x00B2CB70>
我們定義了一個函數get_0_1_2,並且可以查看到這確實是函數類型。但與一般的函數不同的是,get_0_1_2的函數體內使用了關鍵字yield,這使得get_0_1_2成為了一個產生器函數。產生器函數的特性如下:
- 調用產生器函數將返回一個產生器;
>>> generator = get_0_1_2()>>> generator<generator object get_0_1_2 at 0x00B1C7D8>
- 第一次調用產生器的next方法時,產生器才開始執行產生器函數(而不是構建產生器時),直到遇到yield時暫停執行(掛起),並且yield的參數將作為此次next方法的傳回值;
>>> generator.next()0
- 之後每次調用產生器的next方法,產生器將從上次暫停執行的位置恢複執行產生器函數,直到再次遇到yield時暫停,並且同樣的,yield的參數將作為next方法的傳回值;
>>> generator.next()1>>> generator.next()2
- 如果當調用next方法時產生器函數結束(遇到空的return語句或是到達函數體末尾),則這次next方法的調用將拋出StopIteration異常(即for迴圈的終止條件);
>>> generator.next()Traceback (most recent call last): File "<stdin>", line 1, in <module>StopIteration
- 產生器函數在每次暫停執行時,函數體內的所有變數都將被封存(freeze)在產生器中,並將在恢複執行時還原,並且類似於閉包,即使是同一個產生器函數返回的產生器,封存的變數也是互相獨立的。
我們的小例子中並沒有用到變數,所以這裡另外定義一個產生器來展示這個特點: >>> def fibonacci():... a = b = 1... yield a... yield b... while True:... a, b = b, a+b... yield b...>>> for num in fibonacci():... if num > 100: break... print num,...1 1 2 3 5 8 13 21 34 55 89
看到while True可別太吃驚,因為產生器可以掛起,所以是延遲計算的,無限迴圈並沒有關係。這個例子中我們定義了一個產生器用於擷取斐波那契數列。
4.2.2. 產生器函數的FAQ
接下來我們來討論一些關於產生器的有意思的話題。
- 你的例子裡產生器函數都沒有參數,那麼產生器函數可以帶參數嗎?
當然可以啊親,而且它支援函數的所有參數形式。要知道產生器函數也是函數的一種:)
>>> def counter(start=0):... while True:... yield start... start += 1...
這是一個從指定數開始的計數器。
- 既然產生器函數也是函數,那麼它可以使用return輸出傳回值嗎?
不行的親,是這樣的,產生器函數已經有預設的傳回值——產生器了,你不能再另外給一個傳回值;對,即使是return None也不行。但是它可以使用空的return語句結束。如果你堅持要為它指定傳回值,那麼Python將在定義的位置贈送一個語法錯誤異常,就像這樣: >>> def i_wanna_return():... yield None... return None... File "<stdin>", line 3SyntaxError: 'return' with argument inside generator
- 好吧,那人家需要確保釋放資源,需要在try...finally中yield,這會是神馬情況?(我就是想玩你)我在finally中還yield了一次!
Python會在真正離開try...finally時再執行finally中的代碼,而這裡遺憾地告訴你,暫停不算哦!所以結局你也能猜到吧! >>> def play_u():... try:... yield 1... yield 2... yield 3... finally:... yield 0...>>> for val in play_u(): print val,...1 2 3 0
*這與return的情況不同。return是真正的離開代碼塊,所以會在return時立刻執行finally子句。
*另外,“在帶有finally子句的try塊中yield”定義在PEP 342中,這意味著只有Python 2.5以上版本才支援這個文法,在Python 2.4以下版本中會得到語法錯誤異常。
- 如果我需要在產生器的迭代過程中接入另一個產生器的迭代怎麼辦?寫成下面這樣好傻好天真。。
>>> def sub_generator():... yield 1... yield 2... for val in counter(10): yield val...
這種情況的文法改進已經被定義在[PEP 380:委託至子產生器的文法]中,據說會在Python 3.3中實現,屆時也可能回饋到2.x中。實現後,就可以這麼寫了:
>>> def sub_generator():... yield 1... yield 2... yield from counter(10) File "<stdin>", line 4 yield from counter(10) ^SyntaxError: invalid syntax
看到語法錯誤木有?現在我們還是天真一點吧~
有更多問題?請回複此文:)
4.3. 協同程式(coroutine)
協同程式(協程)一般來說是指這樣的函數:
- 彼此間有不同的局部變數、指令指標,但仍共用全域變數;
- 可以方便地掛起、恢複,並且有多個進入點和出口點;
- 多個協同程式間表現為協作運行,如A的運行過程中需要B的結果才能繼續執行。
協程的特點決定了同一時刻只能有一個協同程式正在運行(忽略多線程的情況)。得益於此,協程間可以直接傳遞對象而不需要考慮資源鎖、或是直接喚醒其他協程而不需要主動休眠,就像是內建了鎖的線程。在符合協程特點的應用情境,使用協程無疑比使用線程要更方便。
從另一方面說,協程無法並發其實也將它的應用情境限制在了一個很狹窄的範圍,這個特點使得協程更多的被拿來與常規函數進行比較,而不是與線程。當然,線程比協程複雜許多,功能也更強大,所以我建議大家牢牢地掌握線程即可:Python線程指南
這一節裡我也就不列舉關於協程的例子了,以下介紹的方法瞭解即可。
Python 2.5對產生器的增強實現了協程的其他特點,在這個版本中,產生器加入了如下方法:
- send(value):
send是除next外另一個恢複產生器的方法。Python 2.5中,yield語句變成了yield運算式,這意味著yield現在可以有一個值,而這個值就是在產生器的send方法被調用從而恢複執行時,調用send方法的參數。
>>> def repeater():... n = 0... while True:... n = (yield n)...>>> r = repeater()>>> r.next()0>>> r.send(10)10
*調用send傳入非None值前,產生器必須處於掛起狀態,否則將拋出異常。不過,未啟動的產生器仍可以使用None作為參數調用send。
*如果使用next恢複產生器,yield運算式的值將是None。
- close():
這個方法用於關閉產生器。對關閉的產生器後再次調用next或send將拋出StopIteration異常。
- throw(type, value=None, traceback=None):
這個方法用於在產生器內部(產生器的當前掛起處,或未啟動時在定義處)拋出一個異常。
*別為沒見到協程的例子遺憾,協程最常見的用處其實就是產生器。
4.4. 一個有趣的庫:pipe
這一節裡我要向諸位簡要介紹pipe。pipe並不是Python內建的庫,如果你安裝了easy_install,直接可以安裝它,否則你需要自己下載它:http://pypi.python.org/pypi/pipe
之所以要介紹這個庫,是因為它向我們展示了一種很有新意的使用迭代器和產生器的方式:流。pipe將可迭代的資料看成是流,類似於linux,pipe使用'|'傳遞資料流,並且定義了一系列的“流處理”函數用於接受並處理資料流,並最終再次輸出資料流或者是將資料流歸納得到一個結果。我們來看一些例子。
第一個,非常簡單的,使用add求和:
>>> from pipe import *>>> range(5) | add10
求偶數和需要使用到where,作用類似於內建函數filter,過濾出合格元素:
>>> range(5) | where(lambda x: x % 2 == 0) | add6
還記得我們定義的斐波那契數列產生器嗎?求出數列中所有小於10000的偶數和需要用到take_while,與itertools的同名函數有類似的功能,截取元素直到條件不成立:
>>> fib = fibonacci>>> fib() | where(lambda x: x % 2 == 0)\... | take_while(lambda x: x < 10000)\... | add3382
需要對元素應用某個函數可以使用select,作用類似於內建函數map;需要得到一個列表,可以使用as_list:
>>> fib() | select(lambda x: x ** 2) | take_while(lambda x: x < 100) | as_list[1, 1, 4, 9, 25, 64]
pipe中還包括了更多的流處理函數。你甚至可以自己定義流處理函數,只需要定義一個產生器函數並加上修飾器Pipe。如下定義了一個擷取元素直到索引不合格流處理函數:
>>> @Pipe... def take_while_idx(iterable, predicate):... for idx, x in enumerate(iterable):... if predicate(idx): yield x... else: return...
使用這個流處理函數擷取fib的前10個數字:
>>> fib() | take_while_idx(lambda x: x < 10) | as_list[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]
更多的函數就不在這裡介紹了,你可以查看pipe的源檔案,總共600行不到的檔案其中有300行是文檔,文檔中包含了大量的樣本。
pipe實現起來非常簡單,使用Pipe裝飾器,將普通的產生器函數(或者返回迭代器的函數)代理在一個實現了__ror__方法的普通類執行個體上即可,但是這種思路真的很有趣。
函數式編程指南全文到這裡就全部結束了,希望這一系列文章能給你帶來協助。希望大家都能看到一些結構式編程之外的編程方式,並且能夠熟練地在恰當的地方使用 :)
明天我會整理一個目錄放上來方便查看,並且列出一些供參考的文章。遺憾的是這些文章幾乎都是英文的,請努力學習英語吧 - -#