一天半夜,某教授正在熟睡之際,電話鈴突然響了起來。他睡跟惺忪拿起電話,耳機裡傳來女鄰居怒氣沖沖的聲音:“麻煩你管一下你的狗,不要再讓它叫了。”說完,電話就掛了。這位教授十分生氣。第二天他定好鬧鐘,半夜兩點鐘準時起床,拿起電話撥通了這位女鄰居家。過了半天,對方才拿起耳機,帶著睡意惱怒地同:“哪一位?”這位教授彬彬有禮地告訴她:“夫人,昨天我忘記告訴你了。我們家沒有養狗。”
在這個反映現實人際關係的小笑話中,我們可以發現在沒有法規和道德的約束,也沒有其他力量從外部對雙方進行強制時,對自己最有利的一種策略:一報還一報。這一策略的提出,應歸功於美國密西根大學的學者羅伯特·愛克斯羅德。他是一個政治科學家,研究方向是人與人之間的合作關係。
在開始研究合作之前,愛克斯羅德設定了兩個前提:一,每個人都是自私的;二,沒有權威幹預個人決策。也就是說,個人可以完全按照自己利益最大化的目標進行決策。在此前提下,要研究的問題是:第一,人為什麼要合作;第二,人什麼時候是合作的,什麼時候又是不合作的;第三,如何使別人與你合作。
在研究的過程中,愛克斯羅德組織了一場電腦類比競賽。思路非常簡單:任何參加這個競賽的人都扮演囚徒困境案例中一個囚犯的角色,把自己的策略編成電腦程式,進行捉對博弈,在合作與背叛之間做出選擇。但與囚徒困境案例有個不同之處:他們不止玩一次這個遊戲,而是以單迴圈賽的方式玩上200次。這就是博弈論專家所謂的“重複的囚徒困境”,它更逼真地反映了具有經常而長期性的人際關係。
這個遊戲還允許程式在做出合作或背叛的抉擇時,參考對手程式前幾次的選擇。如果兩個程式只玩過一個回合,則背叛顯然就是唯一理性的選擇。但如果兩個程式已經交手過多次,則雙方就建立了各自的曆史檔案,用以記錄與對手的交往情況。同時,它們也通過多次的交手樹立了或好或差的聲譽。
雖然如此,下一步將會如何行動卻仍然極難確定。實際上,這也是該競賽的召集人愛克斯羅德希望從這個競賽中瞭解的事情之一:一個程式能夠總是不管對手做何種舉動都採取合作的態度嗎?或者,它能總是採取背叛行動嗎,它是否應該對對手的舉動報之以更為複雜的舉動?如果是,那會是怎麼樣的舉動呢?
第一輪遊戲有14個程式參加,其中包含了各種複雜的策略。再加上愛克斯羅德自己的一個隨機程式(即以50%的機率選取合作或背叛)。使愛克斯羅德和其他人深為吃驚的是,競賽的桂冠屬於一個被稱為“一報還一報(TIT FOR TAT)”的策略,它是由多倫多大學的數學教授阿納托·拉波傳輸速率提交上來的。有意思的是,在科學家們上交的14個程式中有8個是“善意的”,但正是這些永遠不會首先背叛的善意程式,輕易地贏了6個非善意的程式。
因為參與競賽的程式為數不多,一報還一報策略的勝利也許只是一種僥倖。為了進一步驗證上述結論,愛克斯羅德決定舉行第二輪競賽,邀請更多的人再做一次遊戲,並把第一次的結果公開發表。這一次有62位科學家遞交了改進的程式,其中包括多個以上一次的策略為基礎的改良品種。加上愛克斯羅德自己的隨機程式,63個程式又進行了一次競賽。競賽結果表明,在63個程式的前15名裡,只有第8名的哈靈頓程式是“非善意的”;在最後15名中,只有1個總是合作的程式是“善意的”。而且,奪魁的仍然是一報還一報策略。
這種讓幾十位科學家的智慧相形見絀的神奇策略到底是怎樣的呢?
說起來很簡單,簡單到有些不可思議:第一步合作,此後每一步都重複對方上一步的行動:合作或背叛。如此簡單的程式之所以反覆獲勝,是因為它奉行了以其人之道還治其人之身的原則,並且用如下特徵最有效地鼓勵其他程式同它長期合作:善良、可激怒、寬容、簡單、不妒忌別人的成功。
- 善良,是指它第一步總是向對方表達善意。它堅持永遠不首先背叛對方,開始總是選擇合作,而不是一開始就選擇背叛或主動作弊。
- 可激怒,是指對方出現背叛行動時,它能夠及時識別並一定要採取背叛的行動來報複。不會讓背叛者逍遙法外。
- 寬容,是指它不會因為別人一次背叛。長時間懷恨在心或者沒完沒了地報複,而是在對方改過自新、重新回到合作軌道時,能既往不咎地恢複合作。
- 簡單,是指它的邏輯清晰,易於識別,能讓對方在很短時間內辨識出來其策略所在。
- 不妒忌,是指它不耍小聰明,不佔對方便宜,不在任何雙邊關係中爭強好勝。
其他各種策略輸就輸在上述五個方面做得不夠好。在比賽結果中,所有惡意程式(第一步背叛)都未進前10名;而某些程式太過好脾氣。被對方背叛之後不立即反應,結果鼓勵那些狡猾的程式反覆占它的便宜;某些程式對於過往關係的“好壞”太過執著,一旦被別人欺騙就很難寬容,結果使得很多本來可能恢複的合作關係永久性斷絕;還有一些程式把自己搞得太複雜,總是試圖通過某種機巧來佔人便宜,儘管在與某些“傻”程式接觸中得了高分,但一旦碰到個性“剛烈”的程式就會搬起石頭砸了自己的腳。而從最後的總分來看,它們的小聰明得不償失。
在香港電影《無間道》有一句廣為流傳的台詞:出來混,遲早要還的。就是這句台詞決定了劇中不少人物的命運,無論是黑道還是白道,警還是匪,很多人物在以為自己勝券在握或進出生天時,猝不及防地死去,用一條命來還了。在博弈論中,“還”也是早晚的事,不過這不是什麼宿命,而是“一報還一報”策略的出發點和立足點,也是它的勝利基點。
小註:就本人的理解,在囚徒困境中,大家都不招供(雙方無罪釋放)是雙方利益最大化的選擇,也就意味著雙方合作。而從一方的個人利益最大化角度來看,選擇招供是最優策略(5年或無罪釋放),這也就意味著背叛對方。最終的結果就是雙方招供。雙方招供是博弈論中著名的納什均衡,因為它是一次博弈中理性主體做出的最優選擇,但並不意味它是全體最優選擇。上文描述的“重複”囚徒困境,背叛不再是最優的策略,一報還一報成為理性主體的最優選擇,有趣的是,個體的最優選擇已經趨近於全體的最優選擇。從上面的討論可以得出這麼一個結論,在社會的長期交往中,合作不但能達到個體利益的最優,也能達到全體利益的最佳化。