這大概算是Python最難啃的一塊骨頭吧。在我Python生涯的這一年裡,我遇到了一些Pythoner,他們毫無例外地完全不會使用函數式編程(有些人喜歡稱為Pythonic),比如,從來不會傳遞函數,不知道lambda是什麼意思,知道列表展開但從來不知道用在哪裡,對Python不提供經典for迴圈感到無所適從,言談之中表現出對函數式風格的一種抗拒甚至厭惡。
我嘗試剖析這個問題,最終總結了這麼兩個原因:1、不想改變,認為現有的知識可以完成任務;2、對小眾語言的歧視,Python目前在國內市場份額仍然很小很小,熟悉Python風格用處不大。
然而我認為,學習使用一種截然不同的風格可以顛覆整個編程的思想。我會慢慢總結一個系列共4篇文字,篇幅都不大,輕鬆就能看完,希望對喜歡Python的人們有所協助,因為我個人確實從中受益匪淺。
還是那句老話,尊重作者的勞動,轉載請註明原作者和原地址:)
1. 函數式編程概述 1.1. 什麼是函數式編程?
函數式編程使用一系列的函數解決問題。函數僅接受輸入併產生輸出,不包含任何能影響產生輸出的內部狀態。任何情況下,使用相同的參數調用函數始終能產生同樣的結果。
在一個函數式的程式中,輸入的資料“流過”一系列的函數,每一個函數根據它的輸入產生輸出。函數式風格避免編寫有“邊界效應”(side effects)的函數:修改內部狀態,或者是其他無法反應在輸出上的變化。完全沒有邊界效應的函數被稱為“純函數式的”(purely functional)。避免邊界效應意味著不使用在程式運行時可變的資料結構,輸出只依賴於輸入。
可以認為函數式編程剛好站在了物件導向編程的對立面。對象通常包含內部狀態(欄位),和許多能修改這些狀態的函數,程式則由不斷修改狀態構成;函數式編程則極力避免狀態改動,並通過在函數間傳遞資料流進行工作。但這並不是說無法同時使用函數式編程和物件導向編程,事實上,複雜的系統一般會採用物件導向技術建模,但混合使用函數式風格還能讓你額外享受函數式風格的優點。
1.2. 為什麼使用函數式編程?
函數式的風格通常被認為有如下優點:
- 邏輯可證
這是一個學術上的優點:沒有邊界效應使得更容易從邏輯上證明程式是正確的(而不是通過測試)。
- 模組化
函數式編程推崇簡單原則,一個函數只做一件事情,將大的功能拆分成儘可能小的模組。小的函數更易於閱讀和檢查錯誤。
- 組件化
小的函數更容易加以組合形成新的功能。
- 易於調試
細化的、定義清晰的函數使得調試更加簡單。當程式不正常運行時,每一個函數都是檢查資料是否正確的介面,能更快速地排除沒有問題的代碼,定位到出現問題的地方。
- 易於測試
不依賴於系統狀態的函數無須在測試前構造測試樁,使得編寫單元測試更加容易。
- 更高的生產率
函數式編程產生的代碼比其他技術更少(往往是其他技術的一半左右),並且更容易閱讀和維護。
1.3. 如何辨認函數式風格?
支援函數式編程的語言通常具有如下特徵,大量使用這些特徵的代碼即可被認為是函數式的:
- 函數是一等公民
函數能作為參數傳遞,或者是作為傳回值返回。這個特性使得模板方法模式非常易於編寫,這也促使了這個模式被更頻繁地使用。
以一個簡單的集合排序為例,假設lst是一個數集,並擁有一個排序方法sort需要將如何確定順序作為參數。
如果函數不能作為參數,那麼lst的sort方法只能接受普通對象作為參數。這樣一來我們需要首先定義一個介面,然後定義一個實現該介面的類,最後將該類的一個執行個體傳給sort方法,由sort調用這個執行個體的compare方法,就像這樣:#虛擬碼interface Comparator { compare(o1, o2)}lst = list(range(5))lst.sort(Comparator() { compare(o1, o2) { return o2 - o1 //逆序})
可見,我們定義了一個新的介面、新的類型(這裡是一個匿名類),並new了一個新的對象只為了調用一個方法。如果這個方法可以直接作為參數傳遞會怎樣呢?看起來應該像這樣:
def compare(o1, o2): return o2 - o1 #逆序 lst = list(range(5)) lst.sort(compare)
請注意,前一段代碼已經使用了匿名類技巧從而省下了不少代碼,但仍然不如直接傳遞函數簡單、自然。
- 匿名函數(lambda)
lambda提供了快速編寫簡單函數的能力。對於偶爾為之的行為,lambda讓你不再需要在編碼時跳轉到其他位置去編寫函數。 lambda運算式定義一個匿名的函數,如果這個函數僅在編碼的位置使用到,你可以現場定義、直接使用:
lst.sort(lambda o1, o2: o1.compareTo(o2))
相信從這個小小的例子你也能感受到強大的生產效率:)
- 封裝控制結構的內建模板函數
為了避開邊界效應,函數式風格盡量避免使用變數,而僅僅為了控制流程程而定義的迴圈變數和流程中產生的臨時變數無疑是最需要避免的。 假如我們需要對剛才的數集進行過濾得到所有的正數,使用指令式風格的代碼應該像是這樣:
lst2 = list()for i in range(len(lst)): #類比經典for迴圈 if lst[i] > 0: lst2.append(lst[i])
這段代碼把從建立新列表、迴圈、取出元素、判斷、添加至新列表的整個流程完整的展示了出來,儼然把解譯器當成了需要手把手指導的傻瓜。然而,“過濾”這個動作是很常見的,為什麼解譯器不能掌握過濾的流程,而我們只需要告訴它過濾規則呢?
在Python裡,過濾由一個名為filter的內建函數實現。有了這個函數,解譯器就學會了如何“過濾”,而我們只需要把規則告訴它:
lst2 = filter(lambda n: n > 0, lst)
這個函數帶來的好處不僅僅是少寫了幾行代碼這麼簡單。
封裝控制結構後,代碼中就只需要描述功能而不是做法,這樣的代碼更清晰,更可讀。因為避開了控制結構的幹擾,第二段代碼顯然能讓你更容易瞭解它的意圖。
另外,因為避開了索引,使得代碼中不太可能觸發下標越界這種異常,除非你手動製造一個。
函數式程式設計語言通常封裝了數個類似“過濾”這樣的常見動作作為模板函數。唯一的缺點是這些函數需要少量的學習成本,但這絕對不能掩蓋使用它們帶來的好處。
- 閉包(closure)
閉包是綁定了外部範圍的變數(但不是全域變數)的函數。大部分情況下外部範圍指的是外部函數。 閉包包含了自身函數體和所需外部函數中的“變數名的引用”。引用變數名意味著綁定的是變數名,而不是變數實際指向的對象;如果給變數重新賦值,閉包中能訪問到的將是新的值。
閉包使函數更加靈活和強大。即使程式運行至離開外部函數,如果閉包仍然可見,則被綁定的變數仍然有效;每次運行至外部函數,都會重新建立閉包,綁定的變數是不同的,不需要擔心在舊的閉包中綁定的變數會被新的值覆蓋。
回到剛才過濾數集的例子。假設過濾條件中的 0 這個邊界值不再是固定的,而是由使用者控制。如果沒有閉包,那麼代碼必須修改為:
class greater_than_helper: def __init__(self, minval): self.minval = minval def is_greater_than(self, val): return val > self.minvaldef my_filter(lst, minval): helper = greater_than_helper(minval) return filter(helper.is_greater_than, lst)
請注意我們現在已經為過濾功能編寫了一個函數my_filter。如你所見,我們需要在別的地方(此例中是類greater_than_helper)持有另一個運算元minval。
如果支援閉包,因為閉包可以直接使用外部範圍的變數,我們就不再需要greater_than_helper了:
def my_filter(lst, minval): return filter(lambda n: n > minval, lst)
可見,閉包在不影響可讀性的同時也省下了不少代碼量。
函數式程式設計語言都提供了對閉包的不同程度的支援。在Python 2.x中,閉包無法修改綁定變數的值,所有修改綁定變數的行為都被看成建立了一個同名的局部變數並將綁定變數隱藏。Python 3.x中新加入了一個關鍵字 nonlocal 以支援修改綁定變數。但不管支援程度如何,你始終可以訪問(讀取)綁定變數。
- 內建的不可變資料結構
為了避開邊界效應,不可變的資料結構是函數式編程中不可或缺的部分。不可變的資料結構保證資料的一致性,極大地降低了排查問題的難度。 例如,Python中的元組(tuple)就是不可變的,所有對元組的操作都不能改變元組的內容,所有試圖修改元組內容的操作都會產生一個異常。
函數式程式設計語言一般會提供資料結構的兩種版本(可變和不可變),並推薦使用不可變的版本。
- 遞迴
遞迴是另一種取代迴圈的方法。遞迴其實是函數式編程很常見的形式,經常可以在一些演算法中見到。但之所以放到最後,是因為實際上我們一般很少用到遞迴。如果一個遞迴無法被編譯器或解譯器最佳化,很容易就會產生棧溢出;另一方面複雜的遞迴往往讓人感覺迷惑,不如迴圈清晰,所以眾多最佳實務均指出使用迴圈而非遞迴。這一系列短文中都不會關注遞迴的使用。
<第一節完>