現在位置:首頁 > 科學傳播 > 科技與未來

以直報怨 以德報德——漫談合作行為演化之三

作者:杜鵬 2019-10-17 16:56 來源:科普時報
放大 縮小

  在人類群體中,個體之間的相互作用是不可避免的,人們通常會對幫助過自己的人表現出一種友好和善意行為,而對傷害過自己的人則表現出一種敵對和敵意行為,表現出人類社會中普遍且長久存在的互惠行為。

  除了人類以外,非親屬間的互惠合作行為在自然界極為普遍。雄性黑猩猩會根據同伴之前向自己提供幫助的情況來決定自身的合作程度,合作的方式有很多形式,如梳理毛發、幫忙打架、照看幼崽、發出警報、教育、交配以及分享食物。馬里蘭大學的威爾金森在哥斯達黎加野外的考察工作中發現,無論哪個夜晚,總會有蝙蝠找不到食物,但它們卻從來不會挨餓,因為那些吃飽的蝙蝠會吐出一些血液,喂養這些同伴。同樣,跨物種之間的互惠合作行為也很多,如貓鼬和大耳狐,牛椋鳥和長頸鹿、水牛,等等。

  互惠是簡單的平等交換。盡管這個世界充滿了互惠行為,但并不是說互惠行為一定會發生。因為幫助他人要付出代價,施惠與回報之間存在時間差,這就免不了被他人欺騙的可能,導致產生較大的不確定性。

  為什么要回報他人的幫助?為什么不采取欺騙的手段?對這些問題的討論持續幾十年之久。直到1971年,美國演化生物學家特里弗斯基于他在非洲對狒狒的研究,在《生物學季度評論》上發表了《互惠利他主義的演化》,講述了囚徒困境如何表現出個體利益和集體利益之間的沖突,對生物學中重復囚徒博弈的重要性予以認可,這些問題的研究才開始走向正確的方向。

  囚徒困境至今已出現了多種變形和演繹,最初于1950年美國蘭德公司的梅里爾·弗勒德和梅爾文·德雷希爾擬定出相關困境的理論,后來由顧問艾伯特·塔克以囚徒方式闡述,并命名為“囚徒困境”。在特里弗斯作出理論貢獻的同時或之前,已經展開了大量的研究。

  在囚徒困境博弈中,如果只進行一輪博弈,每個參與人只關心一次性的收益,背叛而不是合作才是他的最優選擇。如果博弈重復多次,一方面存在著未來潛在的收益,另一方面由于短期不合作,可能會遭到對手的懲罰性報復,因此在重復博弈中有可能會形成合作機制。以色列數學家、諾貝爾經濟學獎獲得者奧曼將此稱為“無名氏定理”。它就像一些被人們口口相傳民歌一樣,很難找到最初的作者,并且在流傳過程中添加了很多人的修飾和改造。

  伴隨著博弈論的發展,大量研究討論建立合作的條件,其中最具有啟發意義是阿克塞爾羅德在20世紀80年代組織的兩輪計算機競賽。

  毋庸置疑,阿克塞爾羅德從計算機競賽中得出的結論具有啟發意義。但在實踐中,人類和其他動物都會犯錯誤。即使是不常出現的錯誤,也可能產生破壞性的后果,這就反映出噪聲在合作演化中扮演著重要的角色。

  諾瓦克在阿克塞爾羅德計算機競賽的基礎上,考慮了隨機性,模擬自然選擇進行了新的比賽,贏家不再得到“金錢”或者“分數”,而是與其完全相同的“后代”,這樣世世代代如此傳遞下去。結果顯示,一報還一報策略沒能笑在最后,寬容版一報還一報策略成為最終的贏家。

  寬容版一報還一報策略是一報還一報的變種,開始選擇合作,以合作的態度回報對手的合作,當遇到背叛時,以某一概率與對手合作。諾瓦克還發現,不管是一報還一報,還是寬容版一報還一報,演化下去,會變成永遠合作者主導天下。此時,一旦有一個來自外部的永遠背叛的惡意策略,就會迅速擴張,永遠合作者無法抵抗惡意入侵,需要一報還一報進行反擊。這已成為一個循環,極像盛極而衰的人類社會和各種組織。

  在后續的模擬中,諾瓦克無意間發現了一個更優的策略——贏定輸移:如果我們在上一輪都合作,那么我會再次合作;如果都背叛,那么我會以某一概率進行合作;如果在上一輪中采取了不同的行動,我會選擇背叛。實戰中,這個策略比一報還一報和寬容版一報還一報活得更長。沒有永遠的策略,在進化中贏定輸移也會消失,但是它是在目前的模擬中發現的最能延長種群壽命的策略之一。

  對于人類和一些動物來說,重復博弈對于維持合作存在的作用是毋庸置疑的。但是大量的一次性博弈或匿名博弈中的合作現象卻無法通過期望將來的收益來解釋。同時重復博弈的要求過于嚴格,對于人類利他行為的解釋范圍并不大。另外,在兩人的重復博弈中自私者可以作出合作行為,但隨著人數的增加,意外的或偶然的背叛數量提高,引起懲罰背叛者的成本升高,同時確保懲罰的協調機制和激勵機制變得異常復雜,互惠機制很難實施。

  (作者系中國科學院科技戰略咨詢研究院、中國科學院學部學科研究支撐中心研究員)

亚美am8app-亚美永远多一点优惠