返回
首页>祝由术>心理健康

囚徒困境,最优解

时间: 2023-11-26 14:54:22

囚徒困境,最优解

囚徒困境是博弈论中常见问题之一。两个罪犯被抓获,可以选择合作或背叛。如果两人都选择合作,则各自获得较小的惩罚;如果两人都选择背叛,则各自获得较大的惩罚;如果一个人选择合作,而另一个人选择背叛,则前者受到最严重的惩罚,而背叛者得到最高的奖励。在这种情况下,每个人的最佳策略似乎是背叛。然而,如果两个囚犯能够合作,他们将能够获得更好的结果。所以,该问题的最优解是什么?

囚徒困境 最优解

经济学视角

从经济学的角度来看,囚徒困境涉及到利益最大化。每个参与者都要通过考虑这个问题获得最大的收益。在本例中,如果两个囚犯能够合作,他们将对自己造成最小的损失,得到一个较小的奖励。但是,如果一个人背叛,这个人可以获得额外的奖励,而另一个人则会承受更多的刑罚。在这种情况下,由于参与者都是有理性的,每个参与者都会选择最大化自己的利益,选择背叛最大化了个人的利益,而不是两人合作。但是,如果两个人都选择背叛,他们得到的结果是最差的。所以从经济学的角度来看,两个囚犯能够合作才是最优解。

心理学视角

从心理学的角度来看,囚徒困境涉及到合作和信任的问题。如果两个囚犯能够信任对方,并且相互合作,那么他们可以共同受益。但是,如果其中一个人缺乏信任,而选择单方面背叛,那么另一个人将对此感到非常失望并且会选择背叛,减少自己的损失。对另一个人的失望和猜疑,还会导致人们对合作的信任去信心丧失。因此,在囚徒困境中建立信任是非常重要的。只有建立了信任,才能达到合作的最优解。

伦理学视角

从伦理学的角度来看,囚徒困境涉及到道德问题。没有人希望自己背叛别人,但是如果每个人都认为自己是唯一背叛,那个人可能会选择背叛。在这种情况下,没有人进行合作,整个博弈中的每个人都会受到损失。这种情况下,囚徒困境需要该博弈参与者考虑道德因素。如果两个囚犯察觉到他们的行为对别人有害,那么他们可能会合作,即使这种行为可能对自己不利。这是因为一个人感知到自己负责另一个人的幸福,还是最后的目标。伦理学的最优解是,两个囚犯选择合作,这种选择带来了道德和幸福感受。

不懂自己或他人的心?想要进一步探索自我,建立更加成熟的关系,不妨做下文末的心理测试。平台现有近400个心理测试,定期上新,等你来测。如果内心苦闷,想要找人倾诉,可以选择平台的【心事倾诉】产品,通过写信自由表达心中的情绪,会有专业心理咨询师给予你支持和陪伴。

博弈论(2)—纳什均衡

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和使用头像一致。

又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。 在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作 最佳应对 。 如果两个博弈的局中人的策略组合分别构成各自的 最佳应对 ,那么这个组合就被定义为纳什均衡。

在给出纳什均衡解释前,我们先得把一个概念说清楚最佳应对。

纳什均衡是刻画局势,如果一个局势下,每个局中人的策略都是相对其他局中人当前策略的最佳对应,则称该局势是一个 纳什均衡

如果一个局中人的某个策略对其他局中人的任何策略都是最佳对应,那么这个策略就是该局中人的 占优策略

在纳什均衡下,局中人没有人会想要改变改变,因为谁改变谁就可能在博弈中处于不利地位。

首先我们来看一看在囚徒困境中纳什均衡,对于囚徒困境的问题的纳什均衡是 双方都坦白 ,属于占优策略

其实不管局中人 2 是抗拒还是坦白,对于局中人的最佳应对都是坦白。从而可以看出纳什均衡点并不一定是整体的最优解。有人可能会说那么为什么不是对于两个人都有利的(抗拒,抗拒)呢,这里最佳应对是无论对手进行策略对自己都是最佳策略,在最后 maxmin 时候就更会了解为什么他们会做出坦白选择,这是一个规避风险的策略。

<img src="./image_003/005.jpg">

这就是纯策略纳什均衡,混合策略下纳什均衡,女生看舞蹈概率 p 看足球的概率就是 1 - p,男生看舞蹈概率 q 看足球的概率就是 1 - q

妻子随机性的目的: 使丈夫无机可乘,不管丈夫选择哪个策略,其期望收益均相同

当丈夫给出概率分布不会让妻子在看足球和看,关于
以我对丈夫了解他更喜欢看足球,

局中人 1 的策略选择分布记为 , 局中人 2 的策略选择分布记为 。假设局中人 1 的策略分布不变,局中人 2 策略选择的效用为

剪刀—石头—布的混合 纳什均衡态

任何有限博弈(参与人与策略数目均为有限)都至少存在一个纳什均衡,这个均衡可能是纯策略纳什均衡(例如剪刀-石头-布),也可能是混合策略均衡,纳什均衡的多重性(例如性别之战)

什么是重复博弈,囚徒困境重复100次之后的纳什均衡是多少?

重复博弈是一种特殊的博弈,在博弈中,相同结构的博弈重复多次,甚至无限次。其中,每次博弈称为“阶段博弈”。在每个阶段博弈中,参与人可能同时行动,也可能不同时行动。因为其他参与人过去的行动的历史是可以观测的,因此在重复博弈中,每个参与人可以使自己在每个阶段选择的策略依赖于其他参与人过去的行为。
至于这题的答案我们可以用逆推归纳法来做。第100次是因为是最后一次所以双方都会选择坦白,同理前面每次都会选择坦白。所以答案就是双方都坦白。r=0.125

边际收益=边际成本 ? 囚徒困境

在利润最大化时边际成本等于边际收益,但是边际成本是逐渐增加到等于边际收益的,所以厂商是有利润的,边际收益曲线以下边际成本曲线以上的部分就是利润。但这部分利润只是资本的正常回报,在会计上为利润,但是在经济学上是算作资本的机会成本,即这部分资本即使用作他用也能获得相同的收益。因此在经济学上长期内竞争行业中的厂商获得零利润,没有厂商有进入或退出的动力。马克思说的工业商业银行业获得平均利润率也是这个意思。

关于囚徒困境,即使合作对双方来说是最优解,但是由于不管对方如何自己选择不合作都能获得更大的收益,所以保持合作是困难的。比如在囚徒困境中,尽管两个囚犯都不招供能使二人都只获得半年的牢狱之灾,但由于招供能带来更大的收益,所以保持合作是困难的。现实中的囚徒困境例子如在垄断竞争行业,两企业合作的话则二者的利润总和最大,但单个厂商选择降价就能获得更多收益,因此,保持合作是困难的。

声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:daokedao3713@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

猜你喜欢

本站内容仅供参考,不作为诊断及医疗依据,如有医疗需求,请务必前往正规医院就诊
祝由网所有文章及资料均为作者提供或网友推荐收集整理而来,仅供爱好者学习和研究使用,版权归原作者所有。
如本站内容有侵犯您的合法权益,请和我们取得联系,我们将立即改正或删除。
Copyright © 2022-2023 祝由师网 版权所有

邮箱:daokedao3713@qq.com

备案号:鲁ICP备2022001955号-4

网站地图