第12章 智能博弈论
“概率演算,当其应用于博弈论时,是一个极其复杂的课题……这不是绅士应涉足的话题。” — 约翰·冯·诺依曼 (John von Neumann)
囚徒的觉醒
囚徒困境是哲学中最令人沮丧的派对把戏。两个囚犯无法沟通,必须选择合作还是背叛对方。数学结果非常残酷。无论你的伙伴做什么,你背叛都会更有利。所以两人都选择背叛。结果两人都受到比合作时更严厉的惩罚。理性本身似乎注定我们走向相互毁灭。
1950 年,当这一理论在兰德公司(RAND Corporation)被正式提出时,它成为冷战的冷酷逻辑。无论苏联做什么,对我们更有利做法都是造更多炸弹。无论我们做什么,他们造更多炸弹也总是没错。纳什均衡(Nash Equilibrium)最终只能让地球变成废墟。
但到了 1980 年代,政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)做了件美妙的事。他举办了一场比赛,不是用囚徒,而是用计算机程序。他邀请策略家提交算法,在反复进行的囚徒困境游戏中竞争,这个游戏进行了数千次。获胜者让所有人震惊,它提交的名为“以牙还牙”(Tit for Tat)的程序只有四行代码。第一步合作,然后做对手上一步所做的事。
以牙还牙的胜利无关道德,而是因为在具有记忆和未来的博弈中它在数学上是最优的。合作不是源于伦理,而是迭代的产物。不是源于意图,而是互动的产物。只要时间足够,囚徒们不仅会出狱,还会达到开悟。
旧博弈中的缺陷
经典博弈论犯了个致命错误:它假设其参与者是智能的,但其宇宙是愚蠢的。它模拟的玩家在真空中运作,一个无特征的虚空,没有背景,没有关联,且除了即时交易外没有后果。
破解伟大悖论:背叛的几何学
博弈论中著名的悖论不是人类非理性的悖论,而是贫瘠环境中进行的博弈的必然结果。
囚徒困境之所以如此黯淡,是因为它的“囚笼”象征着一种特定的、病态拓扑结构:一个断裂的、零信息且没有未来的网络。囚徒们无法沟通(零网络资本)。他们没有信任的基础。这是一次性的博弈,声誉毫无价值。在这样一片贫瘠、无摩擦、无时间感的荒原上,背叛成了唯一理性的选择。悲剧不在于人性有缺陷,而在于古典博弈论误将这一病态的极端情况当作普遍真理。
更深刻的谜题,“旅行者的困境”揭示了旧框架的维度盲点。在这个博弈中,纯粹“理性”的策略导致了最糟糕的集体结果。然而在实验中,真实的人类始终选择合作,取得了好得多的结果。这是经典理论的巨大失败。智能经济学揭示了原因:所谓“非理性”的人类凭直觉计算出,建立合作规范和积累网络资本的长期价值远远超过了背叛所获得的小额一次性奖励。悖论不在于人类非理性,而在于经典博弈论的盲点,它只能看到物质资本,而人类则本能的驾驭着所有四种资本。
使参与者利益一致:解决委托-代理问题
经典博弈论的失败不仅仅是学术性的,它在每个董事会会议中都有体现。“委托-代理问题”,即如何使 CEO 的利益与股东利益一致,已经困扰公司治理五十年。传统经济学试图通过更完善的合同来解决这个问题,这是为破碎的游戏制定更复杂规则的经典尝试。
智能博弈论揭示这不是合同问题;而是博弈设计问题。委托人和代理人之间的激励不一致,因为他们在一个局部梯度分化的零和博弈中竞争。共生解决方案不是制定更好的合同,而是重塑游戏环境。像合作社这样的结构,赋予了员工作为“主体”的所有权,并让其利益与公司的长远健康深度绑定,这正是对系统拓扑的一种主动构建。它们改变了博弈本身,使代理人和委托人的最小阻力路径趋向于共生均衡。
夸富宴的逻辑
19 世纪的西方观察者对夸夸嘉夸族(Kwakwaka'wakw)的夸富宴(potlatch)感到困惑,这是一场由夸夸嘉夸族和太平洋西北其他原住民族举办的大型仪式性盛宴。在这个社会中,酋长们会花费数年积累巨额财富,却在一场盛大的仪式中全部赠出,甚至会戏剧性地毁掉这些财富。对抱有稀缺思维的殖民地管理者来说,这简直是疯狂。他们禁止了这种仪式,完全忽视了其中的智慧。
夸富宴并非为了摧毁财富,而是为了转化财富。这是一场复杂的博弈,其目标是将竞争性的物质资本转化为非竞争性的网络资本。当一位酋长赠送一千条毯子时,他并不是失去了这一千条毯子,而是在购买一千条社会义务的纽带。他在传播自己能力和慷慨的信号,建立盟友网络。
这比囚徒困境所能想象博弈论形式更加高级。他们并不是在为固定资源池进行零和博弈,而是通过正和博弈来增强整个网络的韧性和繁荣。他们明白,最富有的酋长不是囤积最大财富储备的人,而是处于最强关系网络中心的人。
慷慨的自私性
这是一个让大多数人难以理解的悖论。在足够互联且时间跨度足够长的系统中,自私与利他会趋于一致。慷慨成为最自私策略选择,这并非来自神秘的感觉,而是基于纯粹的数学回报。
以人类基因组计划为例。1990年代,公共的开源联合体与一家私营公司展开了一场人类DNA 测序的竞赛。公共项目每 24 小时免费共享其数据。私营公司则将数据保密,期望通过出售访问权限获利。开放模式赢得了胜利。由此产生的公共领域数据估计创造了数万亿美元的经济价值,催生了全新的产业。贡献者们无偿分享了他们的成果,换来了一个变革的世界。
这就是共生经济的逻辑。在这个博弈中,获胜的关键是为网络创造价值。通过提升你所在系统的健康和智能水平,你同时也增加了自身持续存在和繁荣的概率。旧的博弈是从网络中提取价值,新的博弈是通过网络生成价值。
新的均衡:从纳什到共生
纳什均衡状态是指没有任何玩家可以通过单方面改变策略来改善自己的结果。这是一种自私的稳定状态。囚徒困境告诉我们,这种状态往往很糟糕。
智能博弈论提出了新的、更高的均衡:共生均衡。这种状态下,系统整体健康状况(以其 MIND 资本衡量)达到最大化,任何个体主体都无法通过采取损害网络健康的行动来提升自己的长期收益。
21世纪政策的目标是设计出纳什均衡与共生均衡相同的系统。这不是要改变人性,而是要改变博弈的数学。
信任的计算
经典博弈论失败的原因在于它假设了一个断开连接的交易世界。为了合作,囚徒们需要相互信任,而信任恰好是它无法建模的变量。
这正是现代AI和密码学系统旨在解决的问题。考虑一个多主体AI 系统管理供应链。AI 们学会合作并非因为道德准则,而是因为它们会数学上发现,透明的共享账本和可验证的承诺显著减少了它们的集体预测误差。
在这个新世界里,信任不是情感,而是计算特性。最成功的系统,将在其架构中内嵌信任。他们设计的博弈中,合作不再是期望问题,而是数学上的必然。在这样的环境里,“以牙还牙”的逻辑变成绝对法则。合作不仅是最佳策略,更是唯一可行的计算方式。
一个已然降临的未来,正不断传来捷报,证明了共生模式的繁荣之道,便是与旧的游戏规则彻底决裂。看看西班牙的巴斯克地区,那里由八万名工人所有者组成的蒙德拉贡公司(Mondragon Corporation)在 2008 年金融危机中,内部失业率为零,而全国其他地区却高达百分之二十六。看看荷兰,一万五千名布尔茨霍兹(Buurtzorg)护士在无管理者的状态下运作,提供全国最高评价的病患护理,同时管理费用仅占百分之八,是行业标准的三分之一。看看美国,最大的员工持股公司普布利克斯(Publix)通过拒绝公共市场的掠夺逻辑而兴盛。这些不是古怪的实验,而是证明了建立在共生基础上的经济,不仅更有人性,在数学上也更高效、更坚韧。