慈继阁小说网 > 文学电子书 > 纳什均衡与博弈论 >

第29章

纳什均衡与博弈论-第29章

小说: 纳什均衡与博弈论 字数: 每页4000字

按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!



大很多。例如,只有一种情况下能得到完美的平均成绩为A——所有的100个学生都得到A。但是你得到平均成绩是C的情况却有很多——100个C、50个A和50个F,5个级别的成绩各有20人得到,等等。

  就像扔硬币,一次扔4枚硬币,头像朝上的硬币数量相对于上例中的成绩(0就是F,4就是A)。在100次试验中,许多组合的平均值为2,而只有很少的情况平均值为0或4。因此,基于一无所知,你的预测为平均成绩是C。

  第四节 回到博弈

  在博弈论中,一个参与者的混合策略也是概率分布,与平均成绩或扔硬币的例子非常相似。概率论就是关于如何找到对于每个参与者都是最好的混合策略(为了达到这个博弈的最大效用,或最大回报)。在一个多人参与的博弈中,在所有参与者的各种混合策略中至少有一个组合可以达到一种情况,即没有一个参与者能通过改变策略获得更好的结果——这就是纳什均衡,博弈论中最重要的基本原理。

  但是,纳什的现代博弈论基础也有自身的瑕疵。正如纳什指出的,虽然所有的博弈(在确定条件下)都有至少一个纳什均衡,但在很多博弈中能够出现不止一个纳什均衡。在那些情况中,博弈论并不能预测会达到哪个均衡点——你无法辨别出在真实世界情况下参与者们将会实际采用哪套混合策略。并且,即便在一个复杂的博弈中只存在一个纳什均衡,要计算出所有参与者的混合策略是什么,这也远远超出了超级计算机组的能力。

  同时,传统博弈论的基本假设的薄弱之处使此瑕疵更为明显——在获得所有必需的信息计算回报时,参与者是理性的回报最大化者。在大多数人不计算吉士汉堡的营业税的世界里,那是一个苛刻的要求。在现实生活中,人们并不是“绝对理性的”,不能够找到最佳的利润最大化策略来应对所有其他竞争者使用的策略组合。所以,博弈论显然是在假设每个参与者能够做到那些超级计算机都不能做到的事。而且,事实上,几乎每个人都意识到这种完全的理性是无法达到的。故而,博弈论中使用的现代方法经常假设这种理性是有限的或“有界的”。

  博弈论学家们千方百计去处理关于纳什理论里原初数学问题的这些限制。大量最高水准的研究工作已经对博弈论的原始公式进行了修正和改良,使之成为一个修正了许多初期“瑕疵”的理论体系。例如,已经展开了许多研究用于理解理性的限制。虽然如此,众多博弈论学家仍坚持这样一个观点,即“解决一个博弈”意味着找到一个均衡——一个所有参与者都能得到他们最大效用的结果。博弈论学家们一直在探讨各参与者应该怎么做才能使自己的回报最大化,而不是去思考当参与者们真正参加一场博弈时将会发生什么样的情况。

  我们在波士顿会谈后一年,当我去国家航空航天局艾姆斯研究中心拜访沃尔波特时,他指出找寻博弈均衡解应该从博弈内部去审视,从参与者之一的观点去审视,而不是以一个局外人、一个评估整个体系的科学家的有利观点来审视。从局内看,可能会有一个最优解,但是局外的科学家向局内看,只要仅仅预测什么将会发生即可(而不是试图去赢得这场博弈)。沃尔波特坚持,如果你这样看待此问题,你只知道你永远不能确定一场博弈怎么结束。所以概率论的科学应该不仅是寻找单个的解,而是找到一个解,它的概率分布能做出最优的可能性预测来解释博弈的结果将是什么。“情况将会是,无论何时提供你关于一个体系不完整信息后,你必须马上给出的是各种概率的分布,而不是单个的解。”

  换句话说,过去科学家们没有真正将博弈参与者们当作统计物理学中的微粒来考虑,至少没有从正确的角度去考虑。如果你真的考虑过这一点,你就会意识到没有一个物理学家在计算气体热力学性质时考虑单个分子的状态。这个观点是为了计算出整个分子集合体的全面特征。你不可能知道单个分子在干什么,但是你能够统计计算出结合在一起的所有分子的宏观表现。博弈和气体之间的联系应该很清楚了。统计物理学研究气体,并不知道单个分子的活动,而博弈论学家同样不知道单个参与者是如何思考的。但是物理学家确实知道分子集合体的表现可能是怎样的——统计学意义上的——并且能针对气体的性质给出较好的预测。类似地,博弈论学家应该能对博弈中将会发生的事件作出统计学预测。

  正如沃尔波特反复强调的,这就是科学通常的处理方式。科学家们对他们研究的体系相关的信息进行限制,并试着基于他们手上已有的信息做出可能的最优预测。就像一场博弈中的一个参与者仅仅对这个博弈中可能出现的策略组合持有不完整信息,那么科学家们就研究在拥有不完整信息情况下的博弈,信息包括参与者们都知道些什么以及他们是如何思考的(切记,不同的个人在博弈时使用的思路是不同的)。

  所有的科学都面对这种问题——对于一个体系知道一些情况,然后就根据这有限的知识,试图去预测将会发生什么,沃尔波特指出。“那么科学将如何着手来回答这些问题呢?在你所致力研究的每个独立的科学领域中,这种尝试的结果将是一个概率分布。”

  从这一点看,概率论就引进了另一种混合策略。不仅仅是参与者持有混合策略,备选的可行概率分布也会变化。科学家描述博弈持有一种“混合策略”,那就是对于博弈结果的可行预测。

  “当你想到这个的时候,觉得显而易见,”沃尔波特说,“如果给你一场真人参加的博弈,不,你就不会总是得到同一种结果。你会得到不止一种可能出现的结果……他们不可能总是以完全一样的那套混合策略去结束博弈。对于他们使用的混合策略会出现一个分布现象,就像在其他科学问题中一样”。

  显然这个想法已经将博弈论带到了一个新的水平。当每个参与者都有自己的一个混合策略时,科学家描述该博弈用到的一个纯策略的概率分布应该估计所有参与者的所有混合策略的概率分布。然而你如何找出那些混合策略的概率分布呢?当然,得通过最大化你的无知。如果你想对待概率论就好像其中的参与者就是微粒,假设他们策略的概率分布最好的方法就是最大化不确定性(或者用信息论中的专业术语,熵)。使用这个方法,你不需要假设博弈中的参与者们理性有限;这种“有限”自然地出现在信息论的准则中。如果给你一个关于该博弈可能结果的概率分布,那么你就能够用决策论原理来选择哪种结果是你预测的。

  “当你需要一个预测时,概率分布却不需要,”沃尔波特说,“你不得不决定发射导弹或者不发射;向左转还是向右转。”做这样一种决定的数学基础、根本原则是由雷纳德·萨维奇(Leonard Savage)于20世纪50年代比较精确地发展出来的,但是他们却对诸如帕斯卡赌注之类的问题刨根问底。如果你知道一个可能结果的概率分布,但是却不足以过滤掉一些可能性来得到一个单一的预测结果,你就需要考虑如果你决策错(或对)了你不得不失去(或得到)什么。

  “如果你预测出X,但是真实的结果却是Y,你的损失会是多少?或者反过来,你能获得什么好处?”沃尔波特解释道,“有些误判不会给你带来多少损失,这取决于真实结果是什么。但是在其他情况下,你对于真实结果的预测可能导致各种各样的问题——例如你现在已经发动了第三次世界大战。”

  决策论要求你做出的预测应该能使你的预期损失达到最小(“预期”意味着与最终选择相关的可能性都被考虑在内——你将所有可能性造成的损失量平均化了)。结果,沃尔波特观察到不同的观察者会对一场博弈的结果做出不同的预测,即使在可能结果的概率分布是一样的情况下,因为在一些特定的错误预测中一些参与者可能比其他人损失得更多。

  “换言之,对于一模一样的博弈,作为一个局外人你的决策如何去预测将取决于你的损失函数,”他说。那就意味着最佳预测不是博弈中建立的均衡点,而是依赖于“那些剥离于博弈之外的对于结果进行预测的局外人。”因此,有时候最有可能的博弈结果不是一个纳什均衡。

  但为什么不是呢,如果一个纳什均衡代表一个稳定的结果,即在没有人有改变想法的动机的情况下。好像人们会总是变换着他们的策略指导他们不想这么做为止。但是当博弈论放在关于最大熵值的信息…假设等式中时,答案是明确的。等式中的一个符号代表了计算出最优策略的成本,并且在一场复杂的博弈中,这个成本可能会非常高。换个说法,一个参与者想得到最大回报就必须将一个成本考虑在内,那就是计算出得到这个回报他必须付出什么。参与者得到的收益并不是期望收益,而是期望收益减去计算出它所需的成本。

  另外,个人的差异能够影响该计算。最大无知法(就是最大化不确定性)的数学推导中包含了另一个因素,它可以被理解为一个参与者的热度。热度将无知(或不确定性)与计算策略的成本联系起来——对要做的事情具有更多的不确定性就意味着搞清楚这些事需要更高的代价。较低的热度表明一个专注于寻找最优策略的参与者不关注其计算成本;而高热度的参与者将对可能的策略进行更多的探索。

  “那么这个意思,”沃尔波特又解释,“就是,字面上真的会存在纯理性的人,他们总是做那些最可行的事情,他们是冰冷的——是冷酷的。反之一些人做任何事都是满世界的转,期望尝试各种可能的方法,他们是火热的。这个恰巧不在数学考虑范畴之内。这甚至都不算是个比喻;它事实就是这样的。”热度,换个说法,代表了非理性的一种量化。在一种气体中,较高温度意味着分子不处于它们能量最小化状态的可能性更高。之于博弈参与者,较高热度意味着他们不会最大化自己收益的可能性更大。

  “这个类比是说你有可能进入一个非纯理性的状态,”沃尔波特说,“这是完全一样的事情。降低能量就是提高收益。”你还是可以运用策略来增加你的收益,但是增加多少就看你的热度有多高了。

  深入到关键部位,最大熵的数学方法告诉你博弈参与者将会限制理性——这不是你不得不假设的事情。由于一些局外人而非局内人接受这个观点,它就自然而然发生了。

  “这很关键,”沃尔波特强调,“博弈论总是将概率论包含其中,因为参与者使用混合策略,但是博弈论却从未真正地将概率论作为一个整体来应用。此即为传统博弈论中的一个大漏洞。”

  最终,提出参与者热度这个概念就能对于真实的选手参与现实的博弈进行更好的预测了。在那个学生成绩案例中的概率分布,最大熵值就表示所有的成绩分布都是可能的。但是如果你对学生有所了解——也许他们都是优秀学生,每次考试成绩都在B以上——这样你就能通过将这个信息加入方程来调整最终的概率分布。如果你了解一些参与者的热度状况——如习惯于探索不同的可能策略——你就能够将此信息也考虑到算法中,来改善你的概率分布。在伯克利大学和普度大学同行的共同努力下,沃尔波特正开始在真实人群中检验这个观点——或者至少是在大学生中进行。

  “我们已经在本科生身上进行了一些实验,实验中我们实际上关注了他们的热度状况,在一组重复的游戏中——此案例中为投票游戏——然后观察他们的热度状况随时间推移是如何变化的。他们实际上是变得更理性了还是没那么理性了?不同个体的热度状况之间又有什么联系?当你变得不那么理性的时候我是不是变得更理性了?”

  举个例子,如果一个参与者总是做出一样的选择,这个行为使得其对手更容易判断他/她的举动。“这就很直观地表明如果你的热度状况下降,我的就会上升,”沃尔波特说,“所以我们进行这些实验的意图实际上是想找出那些影响。”

  第五节 心理史学的视角

  这些实验,在我看来,应加入那些行为博弈论者和实验经济学者们已经积累的(包括)关于人类行为方面的知识。这听起来就像是沃尔波特在说,为了改进博弈论的预测能力,所有这种知识都该加入到概率分布公式中。但是在我能问我脑中究竟想到什么解决办法之前,

返回目录 上一页 下一页 回到顶部 0 0

你可能喜欢的