鮑勇劍:互信缺失博弈中的合作策略

                  鮑勇劍 澎湃新聞 2021-04-02 17:06:54

                  系統越復雜,反應的方法也要多種多樣,否則就難有效地以一報還一報。如果對方的招式不斷更新變化,我方只有畫符念咒這一招,那競爭的結果是堪憂的。

                  上周,緊急邀約我分析國際貿易危機的朋友倍增。隱去眾所周知的背景情況,問題大約集中在下面幾個方面:

                  1)對外方的言行,應該強勢回應還是悄然無息?2)放眼未來,如果嚴重缺乏互信,怎樣維持國際貿易合作?3)貿易的本質是互惠?;ズσ苍S是例外。斗爭是否會很快結束?

                  我是國際貿易的門外漢。不過,仍然可以識別當前國際貿易呈現出的“囚徒困境”。對于如何走出“囚徒困境”,博弈論已經有超過30年的研究。許多時候,一個概括現象本質的經典理論有極高的實踐價值。簡而言之,即使身處嚴重缺乏互信的博弈中,如果策略得當,合作關系仍然是可能的。如果策略失當,雙方陷入長久互害關系而不能自拔,它也是可能的。

                  第一次世界大戰,敵對士兵之間的合作默契

                  第一次世界大戰暴露政治決策者一系列誤判。首先,英德為代表的對立聯盟誤判奧地利公爵菲迪南德(Franz Ferdinand)刺殺事件的象征意義。其次,雙方以為象征性武力對峙可以在幾個星期內結束。結果,第一次世界大戰延續了4年,傷亡4200萬人。

                  還有一個出乎決策者意料的現象,是敵我互動中的和平合作。在從法國一直延伸到比利時的500英里的壕溝坑道中,雙方士兵演繹出軍事戰爭歷史上罕見的現象:除了間歇性的突襲,士兵可以在雙方步槍射程內正常生活,而無需懼怕對方狙擊手射殺。

                  歷史學家阿什沃思(Tony Ashworth)十分好奇這一現象。通過閱讀大量前線士兵的家書和日記,他以《壕溝戰爭1914-1918》(Trench War 1914-1918)一書記錄了戰爭中敵對雙方特殊的合作行為。

                  自1914年8月始,戰爭血腥殘酷,雙方介入一場你死我活的零和游戲。因為偶然的因素,在某些陣地,雙方埋鍋灶飯的時間點剛好差不多。戰場出現奇特的寧靜。偶然形成的默契,從休戰吃飯延伸到起床出恭。上午8-9點鐘,英德士兵保持互不侵犯的狀態,讓大家處理私人事務。后來,雙方都不約而同地放棄對食品補給線的攻擊,自己要吃飯,也讓對方有飯吃。

                  相互克制的默契,從一個坑道蔓延到另外一個坑道。1914年圣誕節,醉醺醺的士兵甚至可以逛到對方壕溝而不擔心被射殺。意外當然會出現,這畢竟是戰爭。當一方發動突襲時,另外一方馬上予以對應的反擊,一命抵一命。休戰時,德國狙擊手會特意瞄準英軍壕溝上方的民宅,連續射擊,直至打出一個漂亮的圓洞。雙方士兵們用類似方式展現報復能力和意愿。一報還一報,我活也讓你活,同時睚眥必報。

                  按照戰爭的邏輯,敵對雙方形成典型的囚徒困境。相互背叛應該是常態。但是,壕溝戰爭中的士兵卻表現出另外一面:突襲中背叛,休戰時合作,自己求活路,也讓對方有活路??拥朗勘g的和平合作,當然引發指揮部的不滿。指揮官總有方法繼續戰爭。它是另外一個故事。但是,曠日持久的壕溝戰爭中,敵對士兵是怎樣達成合作默契的?在后來的100年中,它一直是研究博弈論學者的熱門話題。

                  超越囚徒困境

                  1950年,蘭德公司(Rand Corp)開始研究美國和蘇聯之間冷戰博弈。數學家福拉德和德雷舍(Merrill Flood and Melvin Dresher)推演出著名的“囚徒困境”(見下圖)。在一個假想的犯人與犯人之間的博弈中,如果兩人事先串通,都保持緘默,那么各被判1年。如果其中一位背叛,而另一位仍然拒絕招供,那么,背叛的犯人可以免刑,而抗供的犯人獲刑5年。如果兩位都背叛事先串供,那么各獲刑3年。關押后,因為兩位犯人無法溝通,理性的首選一般更傾向于背叛。在缺乏信息和可靠承諾前提下,它是個人利益最大化的優勢選項。

                  161734566242946900_a700xH.png

                  “囚徒困境”影響了一代國際關系學者。蘇美兩個超級大國競爭過程中,背叛和對抗成為大國博弈的首選和優選。當艾利森(Graham Allison)談論大國沖突的修昔底德陷阱(Thucydides’ trap)時,其背后的邏輯也是如此。

                  互信缺失就不可能合作嗎?怎樣才能顛倒囚徒困境下的選擇?一戰時,敵我雙方士兵之間的自發合作只是曇花一現,還是可以長久維持?

                  帶著上述問題,密歇根大學政治學家阿克賽爾羅德(Robert Axelrod)修改了囚徒困境的一個重要的,但被忽視的前提:假想敵對雙方進入一個循環往復,一直持續下去的互動過程,什么樣的選擇(合作或背叛)會勝出?這個勝出的選擇應該具有穩定性,應該符合選擇者的長遠利益。

                  為搞明白長期博弈背后的規律,阿克賽爾羅德設計了一個電腦游戲。游戲模仿囚徒困境,但不設立結束條件。換言之,游戲參加者不知道下一局是否為終局。1980年,阿克賽爾羅德向研究博弈論和相關社會科學的學者發出英雄帖,邀請他們自愿參與囚徒困境的游戲。

                  第一輪錦標賽參加者都是博弈論愛好者或專家。你來我往,博弈14輪,最后得分第一的是多倫多大學的一位教授。他使用的策略極其簡潔:一報還一報(Tit for Tat),即你對我好,我回報以友善;你對我惡,我就報復反擊;如此,循環往復不改變。

                  第二輪錦標賽有62輪博弈。來自5個國家的參加者都已經通曉上一輪博弈的結果,特別是獲勝策略。參加者嘗試15種不同的合作或背叛的策略組合,包括“下馬威策略”(出場就連著背叛兩局),“誘騙策略”(開局合作,然后連續背叛),“強盜策略”(一直背叛,從不合作),“趁機占便宜策略”(合作一次,背叛兩次,再道歉求饒)。令人驚訝的是,榜上排名前列的都是使用了“一報還一報”的策略。

                  阿克賽爾羅德的初始研究問題是:從自身利益出發,在沒有權威干預的條件下,缺乏信任的博弈雙方能否形成合作關系?如果能,它的規律是什么?規律是否有長期的穩定性?

                  兩輪電腦模擬游戲顯示:當競爭雙方認為會在未來反復相遇時,他們有可能采納“一報還一報”的策略。它最終導致雙方穩定的合作關系。而這種關系最符合各自的長遠利益。

                  為了求證電腦模擬游戲發現的規律,阿克賽爾羅德找到生物進化學家漢密爾頓(William Hamilton),請他從億萬年生物進化的角度解釋或證偽“一報還一報”的合作規律。漢密爾頓解釋,類似的互惠原則(Reciprocity)也頻繁出現在生物進化過程中。例如,海鱸(Sea bass)有兩個性器官,可公可母。如果海鱸有十次交配,受精和產卵過程的任務,往往是對半承擔,大約5次承擔母海鱸的任務,5次執行公海鱸的角色。

                  類似的互惠合作現象,在物種進化過程中普遍存在。簡單結構的植物和動物沒有自主的、有意識的選擇。但是,它們有與外部環境的反應機制。長期進化過程中,互惠反應有利于物種生存。這個本能的策略通過基因保留下來,傳給后代。漢密爾頓教授的“親緣關系和利他合作”理論被認為是對達爾文“物競天擇”生物進化理論的一個重要補充。生物進化,既有競爭,又有合作。合作是物種演變的主旋律。

                  “一報還一報”是不是也可能讓互害關系循環下去,成為無休止的宿怨?它完全是可能的。因此,博弈論學者特別倡導傳播“一報還一報”的互惠合作規律,教育人們認識到它是符合自身利益的最優策略。

                  缺乏互信條件下的合作策略

                  成為贏家,我們絕不能打左臉,送右頰。但是,只有“以牙還牙,以眼還眼”,它也不符合我們自身利益和長期目標。實踐中,阿克賽爾羅德的“一報還一報”的策略有10項應用原則??偨Y如下:

                  1.待人以直, 針鋒相對。你示好,我友善。你背棄,我反擊。如此循環往復。2.凸顯相互依存的宿命,打消零和游戲的念頭。躲了初一,逃不了十五。讓對方理解,這不是一次性可以了斷的博弈。3.首現誠意,和善開局。博弈伊始,不出濫招,不動惡念。從做好人開始。4.敢于反擊,以牙還牙?;鼐匆皶r,反擊合比例。5.寬宥只能一次,了斷討巧伎倆。最多原諒對手一次,而且是在有力的報復之后。6.承諾不首先背叛,如果失誤,真誠致歉。假如因為誤判而選擇背叛,立即解釋并補償。7.不耍小聰明,不占小便宜。即使發現對方漏洞和疏忽,堅持第一條,待人以直。8.成全對方,超越自己。零和游戲重點在削弱對手。非零和游戲重點是自我進步。9.結盟,成為合作的少數。即使在普遍具有敵意的競爭環境中,少數結盟者之間的合作將改變充滿敵意的環境,直至合作成為主導策略。10.開宗明義宣示遵守“一報還一報”的策略。當雙方認識到它是必要的優選后,建立合作的過程可以加速。

                  在目前的國際環境下,因為地緣政策因素,國際貿易變得更加復雜。怎樣理解和管理復雜系統?系統學家阿什比(Ross Ashby)建議:遵守“必要的多樣性” 原則(Ashby’s law of requisite variety)。概言之,系統越復雜,反應的方法也要多種多樣,否則就難有效地以一報還一報。如果對方的招式不斷更新變化,我方只有畫符念咒這一招,那競爭的結果是堪憂的。

                  暖暖视频免费观看高清直播

                  長按二維碼關注我們