科学网 › 标签 › 囚徒困境

标签: 囚徒困境

相关帖子	版块	作者	回复/查看	最后发表

没有相关内容

相关日志

[转载]杨六省：囚徒困境让博弈论和经济学界蒙羞: zhpd55 2020-6-30 21:31; 说明：因杨六省（13572503691@163.com）老师之邀，将其一篇关于“囚徒困境让博弈论和经济学界蒙羞”吗的回答新作转载于下，请行家进行评议，也可以直接与杨六省老师联系。囚徒困境让博弈论和经济学界蒙羞杨六省问题：两名嫌犯A和B被警方抓获，被分别关押在不同的房间里接受警方的盘问。他们被告知：如果一人认罪，另一人不认罪，认罪者可获释，不认罪者将获刑20年；如果两人都认罪，他们将均获刑10年；如果两人都不认罪，他们将均获刑1年。为简明起见，我们用下表反映问题条件。两人各会有什么盘算呢？嫌犯A可能会这样想：假设B选择认罪，我若不认罪，将获刑20年，若认罪，只获刑10年，当然选择认罪有利；假设B选择不认罪，我若也不认罪，将获刑1年，我若认罪，则可获释，显然还是认罪有利。总之，不管对方选择认罪还是不认罪，认罪对我都是最佳选择。同样，嫌犯B的盘算结果也是认为，选择认罪是最佳方案。然而，如果两人都选择不认罪的话，他们都只会获刑1年，而不是10年。上述这个与客观事实（指两个囚徒都应该选择不认罪的策略）相矛盾的推理结论（指两个囚徒都应该选择认罪的策略），就是著名的囚徒困境，也叫囚徒悖论。作者评析：参与者追求个人利益最大化是博弈活动的灵魂。但是，这个灵魂（策略选择的动机）不应该像一匹脱缰的野马那样任性，因为赛场上还有其他的马匹也参与比赛。所以，这个灵魂应该由“一根缰绳”来约束，“这根缰绳”就是一致性原则。如果把前者（参与者追求个人利益最大化的动机）叫做“本能”，那么，后者（遵守一致性原则）所反映的就是“理性”，换句话说，参与者既是自私的，但也应该是理性的，这是我们讨论问题的假设前提。但遗憾的是，人们常常只考虑前者而忽视了后者，甚至误以为，理性人概念的全部意义似乎只在于追求个人利益最大化，而不考虑其做法是否符合一致性原则。这种原则性的错误所引发的矛盾有时会是令人惊讶的！例如，在囚徒困境中，声称认罪是每个参与者的占优战略（占优策略是指，无论什么情况都应该采取的策略选择），但这一结论却被客观事实（题目条件）所否决。任何一个理论系统，如果它是合理的，那么，其自身必然是无矛盾的，与其他学科必然是相容的，与客观事实必然是相一致的。学术界尚未解决的难题比比皆是。但是，目前尚无能力解决难题是一回事，而容忍矛盾的存在，甚至为矛盾的存在进行辩护则是另一回事。前者并不令人蒙羞，但后者会令学界蒙羞！囚徒困境问题的现状就属于后者，例如，学界认为，“认罪是每个参与者的占优策略”，但两人都认罪却不是问题的最优解；纳什均衡是反映稳定性的概念，但最优解（两人都不认罪）却不是纳什均衡；最优解明明客观存在，却认为不可证，即理由不可知；帕累托最优是个合理的概念，但学界却认为纳什均衡概念与帕累托最优概念是冲突的；亚当·斯密的“看不见的手原理”是合理的，但学界却认为纳什均衡概念挑战了亚当·斯密的“看不见的手原理”；当推理结论（指囚徒应该选择认罪策略）与客观事实发生冲突时，不是去质疑推理，否定推理，而是容忍冲突，为冲突辩护，说什么这种冲突是因为个人理性与集体理性相矛盾的缘故，试问，一个具有一致性的理论，其个人理性与集体理性难道会是不相容的吗？……上述种种矛盾是应该拒斥和消除的，但博弈论和经济学界却容忍上述矛盾，并为之进行辩护，这着实让博弈论和经济学界蒙羞！囚徒困境所引发的矛盾和冲突是如此之多，这足以表明，博弈论与经济学必须为博弈行为制订规矩。博弈行为准则：任何一个参与者，其策略选择的动机均在于追求利益最大化，但不得违反一致性原则，即不得引发矛盾。 “假设对方选择不认罪策略，则我应当选择认罪策略”这一观点似乎已为学界所公认，并被冠以“个人理性”之美名！下面我们就来说明，以往人们的推理为什么是无效的，错误究竟出在哪里？嫌犯A既然以“假设B选择不认罪策略”作为推理前提，依据博弈行为准则，A就得认可B的这种策略选择是为了达到、并且也应该达到其收益大于或等于A的收益。但是，当A又利用“假设自己选择认罪策略”进行推理时，就是又认可了自己的策略选择动机，即要使自己的收益大于或等于B的收益，但依据警方告知的条件，两人的策略选择动机不可能是相容的，这表明A在推理中应用了互不相容的条件，这是有效推理所不允许的（注：错误之处不在于假设前者，而在于在假设前者的前提下又假设后者，或者更确切地说，错误在于，最终没有否定后者），所以，A关于“假设对方选择不认罪策略，则我应当选择认罪策略”的证明是无效的。此说法对于B同样成立，因为B和A在博弈中所充当的角色是对称的。纳什因纳什均衡概念的提出而获得诺贝尔经济学奖。诺贝尔经济学奖得主梅耶森认为，发现纳什均衡的意义，可以和生命科学中发现DNA的双螺旋结构相媲美。但笔者认为，纳什均衡概念的内涵是有缺陷的，是不完整的，因此，梅耶森对纳什均衡的评价显然是过誉了。事实上，“在科学院的投票中，纳什与1994年度诺贝尔经济学奖的另外两名候选人勉强以微弱多数胜出，这是历史上最接近失败的一次评选。”（参见《美丽心灵——纳什传》第469页）本帖只是一个引子。关于囚徒困境问题的详细讨论，参见杨六省著《悖论是什么——70个悖论的消解》，汉斯出版社，2020年6月出版。杨六省老师原文：囚徒困境让博弈论和经济学界蒙羞.doc; 个人分类: 数学研究|4234 次阅读|0 个评论

《博弈：关于策略的63个有趣话题》: 热度 1 zywsict 2013-6-10 07:42; 白波的《博弈：关于策略的 63 个有趣话题》是关于博弈论的一本浅显易懂的读物，里面的实例大多源自日常生活、经济活动的游戏和事物。该书用博弈论的观点分析实例，进而提出适用于实例的策略。囚徒困境：两个人合伙作案，被警察抓起，然后隔离审讯 , 在不能够互通消息的情况下，每个囚犯比较做出自己的选择，供出团伙，与警察合作，即背叛同伙。或者保持沉默，与同伙合作，即不与警察合作。如果两人都不坦白，将会被判刑一年。如果一人招供，另外一人不招，坦白者将无罪释放，另一人重判 15 年。如果两人都招供将判刑 10 年。从囚徒个人利益出发，最终的结果将是两个囚徒都会招供，但这对真题而言并不是最好的结局。纳什均衡 : 一组策略组合中，所有的参与者都面临这样一种情况，给定你的策略，我的策略是我的最好策略；给定我的策略，你的策略也是你的最好策略，即双方在对方给定策略下，不改变自己的策略。重复“囚徒困境游戏”：用计算机编写程序模拟一个囚犯的选择，参与者每一步都写出自己合作或者不合作的程序，这个程序可以根据历史情况分析来写。游戏总共有四种组合。第一：合作，背叛；第二，背叛，合作；第三，合作，合作；第四，背叛，背叛。双方合作可以得 3 分，一方合作，一方背叛，背叛者可以得 5 分。双方都背叛得 1 分。游戏循环进行，得出最佳的策略，就是以其人之道还治其人之身。也就是别人上一次合作，我也合作，上一次不合作，我也不合作。如果在现实生活中采取“以其人之道还治其人之身”这种策略会造成，就会陷入死循环，即“冤冤相报何时了”。所以必须对这种策略进行改进，改进的方法就是设置一个阈值，如果损失小于阈值，我们采取合作的策略，否则采用“以其人之道还治其人之身”策略。 “海盗分钻石” 5 个海盗抢到了 100 颗钻石，每颗钻石价值一样，他们觉得采用下列方式分钻石：抽签决定自己的号码（ 1, 2, 3, 4, 5 ）；首先，由 1 号提出分配方案，然后 5 人进行表决，当且仅当半数和超过半数的人同意时，按照他的方案进行分配，否则将被扔入大海喂鲨鱼。如果 1 号死后，由 2 号提出分配方案，当且仅当半数和超过半数的人同意时，按照他的方案进行分配，否则将被扔入大海喂鲨鱼。以此类推 … 。如果你是第一个海盗，你将会如何分配？利用博弈论的知识可以推倒出最佳的分配方案是（ 97 ， 0 ， 1 ， 2 ， 0 ）或者（ 97 ， 0 ， 1 ， 0 ， 2 ）。; 个人分类: 读书笔记|5167 次阅读|5 个评论

博弈9——走出困境的艺术: 热度 12 xying 2013-1-15 08:41; 从人际关系到国际关系经常会遇到一种利益冲突，合可双赢，争则两败，背叛者占尽寻求合作便宜的局面。这个局面在博弈中叫做“囚徒困境（ Prisoner ’ s dilemma ）”【 1 】。那是 Merrill Flood 和 Melvin Dresher 在兰德研究合作与冲突时构造的一个模型，普林斯顿数学家 Albert W. Tucker1950 年，在斯坦福大学给一群心理学家说明选择的难题时，举它作为例子，从此成为了二十世纪下半叶在社会科学中影响最大的案例。在“囚徒困境”中，背叛者获益要比合作时大，单方面寻求合作的人受伤害要比相争时深。这诱使局中人在合作与背叛之间往往选择背叛，因为无论对方选择什么，采用“背叛”总比“合作”对自己更有利，这在博弈中叫做“严格优势策略”。双方各自明智的选择，排斥了本来可以合作双赢的前景，结果走到了两败俱伤的境地。这是自私人性悲哀的困境。现代的教育总是让人相信理性的力量和善意的威力。人们不禁想象：在各自决策之前，如果给局中人一个充分交流沟通的机会，是不是有可能让他们携手合作走向双赢？金球赛的最后阶段的游戏（ Golden Balls ： Split or Steal ）提供了许多非常精彩的实例。 2007 到 2009 年风靡英国金球赛（ Golden Balls ）以参与者们根据各人诚实或者虚假的得球声明，通过公开讨论方式，投票淘汰可能得到差球的队员。到了最后阶段剩下两个人，两人前面各有两个金色的球，其中一个是“平分”，另一个是“骗取”。两人私下中各选一个，如果两个人都选了“平分”，将平分高额的奖金。如果其中一个选择“骗取”，另外一个选择“平分”，前者将获取所有的奖金，后者则空手离开。如果两个人都选择“骗取”，则两人都一无所得。这最后阶段的游戏是弱化的“囚徒困境”博弈。被背叛的一方受到伤害与相争时一样，这略为减少一点选“平分”者的损失，让合作更容易一些。但这并不改变“骗取”是一个优势策略。因为无论对方选择什么，自己选择“骗取”都比选“平分”不吃亏。如果没有协商，双方不大可能走向合作。但在这最后阶段的游戏中，允许他们在选择前协商沟通。下面的一个视频显示单纯善意的沟通，可能获得的一种结果。 http://www.youtube.com/watch?v=p3Uos2fzIJ0feature=related 这个视频，一男一女双方都信誓旦旦地承诺选择“平分”这个奖金，女人首先承诺自己会守信，哀婉地祈求对方要平分，两人相握对视眼睛直达心底，那男方诚挚的态度令人动容。但是这个承诺在博弈中只有精神作用，并没有实质的约束，实际上这个沟通并没有改变未沟通前的状态，寻求合作者浪费了这个机会，单纯的信任往往是受伤害的一方。比赛的现实证明，在几十万英镑的利诱面前，没有约束力的承诺，并不能导致合作。这样的事例在生活中并不少见，人们往往在道德上谴责背信一方的卑劣，但这并不改变竞争的结果，也不影响将来世界的面貌。道德的谴责和标榜的作用，只不过向人们推介自己是个良好合作的对象，这一点诚实的君子和伪善的骗子在表现上并没有什么区别。就像在这比赛中无法相信，谁的承诺是可信的一样。人们深入思考囚徒困境后，首先对亚当•斯密的“看不见的手”的原理提出疑问。这位经济学大佬在《国富论》中说：“通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。” 而在囚徒困境中，我们看到的却是：大家都从利己出发的决定，结果是损人不利己。在这种局势下每个人的自利行为，无疑损害了社会的整体利益，这就动摇了西方自由经济的基石。其次，这困境对自由的原则感到困惑。自由主义的奠基人卢梭认为人是理性善良的，自由的人们以平等的资格签订社会契约，从自然的状态中解脱出来组成国家。可是当战争血火相临，当社会道德崩溃，当经济危机到来，当恐惧、不甘、绝望逼迫着人们求生自保的本能，落在囚徒困境时，各人还能按自由的意愿，牺牲小我，都做出有益于集体的理性决定？近代政治理论的奠基者霍布斯认为人是自私的，在自然状态下的人生是“孤独、贫困、污秽、野蛮又短暂的”，人们只有在“利维坦”这个国家机器强力约束下才能合作。难道我们只能靠“利维坦”走出霍布斯丛林？卢梭认为只要屏除社会对人恶劣的影响，进行善良的教育就能把人的美好天性激发出来，马克思的理论也是认为，只要消除剥削和不平等，人们就能合作起来共同致富。事实的历史，以及这个金球赛的现实告诉我们，在巨大利益面前，仅仅道义上的约束是多么的无力。自由人们在囚徒困境中，合乎逻辑明智的选择都是背叛。实际上，卢梭在诗意般的介绍之后，就要求按照商业的规则，让你自愿地或被大多数人代表地签订契约，出让自由，赋予利维坦代表“社会公意”的强制权力。马列则在美好愿景之后，以革命的名义用无产阶级专政来实现利维坦的管理。这说明了无论哪一种形式国家的强制力，都是社会合作需要的外力。但这仍然不能解释，除了让人摸不着头脑的法理和令人恐惧的暴力之外，为什么大多数民众，还是愿意听从政治家强势领导的现实。自愿往往要来自自身的利益。另一个视频显示包含着善意和威慑的政治手腕， Nick 强迫 Ibrahim 合作。 http://v.youku.com/v_show/id_XMzkxMDYzMDcy.html 视频中的 Nick 表现出掌控局面的能力，他首先强硬地宣布自己要选择“骗取”这个优势策略，附加上盘后平分交易的许诺。即使对方公平地建议双方都选择“平分”，他仍然强势地坚持，他不会改变。并警告说如果对方也选择“骗取”，两人将一无所得。这就把一次博弈分成两个阶段：威胁和利诱。利诱的部分并没有确实的保障，这和另一个视频的承诺一样，只是给人一种希望。但是威胁的部分，实实在在地粉碎了也许能占便宜的幻想，让对方只能在事后可能平分，和两败俱伤中做选择，把球踢到对方。这是序贯博弈中常见的威胁策略。强势者常常坚持自己掌控命运，而不是寄希望于对方的诚信。国际关系中，例如美国“透明”的国际政策，“清晰”的战略，中国关于在台独时使用武力的立法等等，都是使用这个策略。明白地宣示自己的底线，打消对手侥幸冒险的幻想，把合作和两败俱伤选择的球踢给对方。在社会上则是掌控局面的政治手腕。这当然要求要有实力，或有坚强的意志才能做到。这个视频更精彩的是：在揭晓时， Nick 并没有坚持他强硬声明中的那个“骗取”策略，而是选了“平分”。这是因为在威胁和利诱面前，理性的对方应该选择“平分”，但不排除对方意气用事。 Nick 自己选择了“平分”，在对方理性时，只不过将许诺的部分当场对现，在对方不理性时虽然让对方得到好处但并不增加自己的损失，还因为双方前面的许诺，存在事后平分的可能。这时“平分”成了他实施的优势策略。这是一种宽容的表现。 Nick 的策略包含了善意、威胁、宽容和明朗的特点。这也是博弈中“理性经济人”的表现，理性要求不感情用事，经济人追求的是自身的利益，而不是考虑是否会便宜了对方。熟悉博弈的读者可能注意到， Nick 在威胁阶段的序贯博弈与“最后通牒博弈”【 4 】一样。这两者共同逻辑是：如果对方是理性人，他必定接受指定的方案。在这个实例，推理和实验的结果是一致。这是不是破解了囚徒困境，说明这时纳什均衡不适用了？不是。博弈理论研究的，是在理性人假设下均衡的状态。 Nick 不是研究者，是应用者，关心的是用什么策略，能够得到最好的结果。对这个实际问题，他避开导致双输的囚徒困境模型，利用可以沟通的规则，应用序贯博弈模型来指导实践。 Nick 依博弈的思想，假定对方是理性人，采用了他认为是理性的策略，取得了合作，达到双赢。关于理性假设和“最后通牒博弈”，在这个科普系列外，我再专文讨论。金球赛引起社会科学研究者的兴趣，有一群经济学者对这些比赛进行分析，发现即使在众目睽睽下的公开比赛，有着社会道德的压力，选择“平分”的人也只有 53% ，这只导致略高于四分之一的合作结果，其他的，不是互相背叛就是善意被欺凌，这还是因为它的竞争环境不如真正囚徒困境那么恶劣，但这已经很靠近囚徒困境的悲剧。这两个视频说明了，缺乏权威各自为政的群众无论多么理智，如何心怀善念地良好沟通，尽管大家都明白合作是唯一公平取胜的出路，在严酷的环境中还是难以走出困境。在巨大利诱面前威胁比承诺更有效。有政治手腕能掌控局面的人，可以利用沟通来传递信息，将原来两难的选择，转化成两个诱导的选择，来走出困境，这是政治和商业竞争中已被人使用的技巧。强者利用这些政治艺术领导群众，凝聚力量促进合作。驱使这凝聚起来的巨大合作力量，可以为恶也能为善。这解释了为什么在危机和严酷环境中，在革命和战乱时，社会总是期盼英雄，崇拜权威，趋向独裁。那么善良、宽容、正直、坦率所有美好的人性，在这残酷的弱肉强食生存竞争中何以生存？面对着这寒冰般的逻辑和无可回避的理性，难道我们只能在梦中向往美好，躲在宗教里祈求安慰？下一篇告诉你答案。【参考文献】【1】维基百科，囚徒困境 http://zh.wikipedia.org/wiki/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83 【2】 Wikipedia ， Golden Balls http://en.wikipedia.org/wiki/Golden_Balls 【3】 MBALib ，最后通牒博弈 http://wiki.mbalib.com/wiki/%E6%9C%80%E5%90%8E%E9%80%9A%E7%89%92%E5%8D%9A%E5%BC%88; 个人分类: 科普|9995 次阅读|26 个评论

中外悲剧里的“囚徒困境”博弈: 热度 5 xying 2012-12-7 10:52; 能发人深省的悲剧，不是由愚蠢的误会或偶然的过失造成，而是陷入一个困局，尽管可以望见光亮，却费尽心力无论如何挣扎，都不可避免地掉入深渊。给予人们不是深深的叹息，而是理智的困苦和心灵的拷打。《托斯卡（Tosca）》的故事以1800年拿破仑“解放”罗马的历史事件为背景。画家卡瓦拉多西由于掩护越狱的革命党人被逮捕监押。画家的恋人、歌剧演员托斯卡向警察局局长斯卡皮亚求情。斯卡皮亚早就垂涎于托斯卡，提出以她委身来换取卡瓦拉多西的生命与自由。托斯卡假装答应。当晚，警察头子逼迫兑现，托斯卡用暗藏的刀子把他刺死。然后行贿与狱中情人相会，分享得计后的喜悦。黎明时分，画家被枪决，托斯卡才知道这不是警察头子说的假死刑。而警察发现斯卡皮亚被刺，追捕托斯卡。托斯卡跳下城堡的城墙自尽。普契尼（Giacomo Puccini，1858-1924年）这个名作充斥着凶杀和爱情，艺术和政治，背叛和奉献，狡诈和幼稚，表演和现实的矛盾。情节起伏跌宕，作曲家技巧地以柔和的旋律来缓和歌剧中深沉的悲剧主题。在这充满矛盾的张力中，观众的视觉和听觉达到前所未有的统一。在这个故事中，警察头子斯卡皮亚给托斯卡出一个难题（囚徒困境）。斯卡皮亚下令在第二天处死画家，如果托斯卡曲从他，他可以执行一个假死刑，画家得以生还。托斯卡面临着顺从和拒绝的两难选择。如果拒绝，画家一定被杀，这是一个斯卡皮亚和托斯卡双输的结果。如果顺从，警察头子可能守约也可能爽约。如果守约则各得所求，如果爽约则托斯卡输得更加悲惨。从警察头子的角度，他有守约的理由。因为抓画家找到革命党的目的已经达到，爽约杀死画家并非必要又会影响托斯卡后续的感情。所以他出了这个难题，并相信如果托斯卡有理智，她会合作。托斯卡认为她可以欺骗警察头子，不需要付出代价又可以得到承诺，骗得通行证后就杀死警察头子。不幸的是，警察头子根本没有下令假枪决，认为他握有主导权，托斯卡不可能在他满意之前对他不利，他也可以在两方面都得分。结果警察头子被刺死，托斯卡情人被处死，悲愤的托斯卡跳墙而死。不想输都想操纵这个局面的双方，得到了这个困境中最坏的结果。 “赵氏孤儿”故事，人物和许多情节已经是一个经典了，是中国乃至世界一个著名的悲剧。故事说奸臣屠岸贾将赵氏灭族，赵家门客公孙杵臼和程婴临危救孤，程婴以亲生儿子和好友公孙杵臼的性命作为代价，换得屠岸贾信任，并带着赵氏孤儿投入屠岸贾门下，忍辱负重，抚养赵氏孤儿长大成人，最后赵孤报仇雪恨，亲手杀死屠岸贾。撇开故事中忠奸善恶的色彩，透视到故事核心的矛盾，屠家与赵家相互仇杀构成了一个博弈困境。一旦屠岸贾灭了赵盾一族，但使一人漏网，就进入冤冤相报的困境。果然，时过运迁，赵家报仇雪恨，屠家就复灭了。屠家若有后，焉知不能再复仇？古人举族命运相连，个人可以牺牲但使血脉流传，所以一旦身陷这个困局就只能是斩草除根了。这时谁退缩，谁就是输家，尽管都退一步对大家都有利。陈凯歌的电影《赵氏孤儿》据说是多年反思之作，想用现代人的思维来重新叙写这个故事。其时屠岸贾灭掉赵氏，独揽权政，二十几年风光无量，再无仇恨之人了。诲人则以“没有敌人，则天下无敌”自许。后来虽然知道程子就是赵孤，已经厌于树敌了，也有了爱心，想从此泯了这段仇恨，跳出仇杀的困局。赵氏孤儿虽然受了现代教育，也不以家仇为己任，但历史的事实和情理的逻辑终是拗不过的，不敢演成一笑泯恩仇的儿童笑剧，故仍然刺死了屠岸贾做结。歌剧《托斯卡》和电影《赵氏孤儿》都告诉人们：博弈不是一个人自己可以左右的游戏，无论你有多强，对方的选择都是你不能掌控的变数。一门心思想占对方的便宜或者一厢情愿地示好期望回报，都无法走出困境。博弈的困境就像一个难以自救的陷阱，无论你如何明智，带有什么愿望，看得多么明白，都身不由己地走到自己最不愿意看到的境地。这就是人性的悲剧，记录了先人痛苦的挣扎和应对的教训，成为我们文化中宝贵的基因。陈凯歌的电影在艺术方面难以挑剔，思想内容也富有深意。但错误在于借用了经典的故事来演绎他的不同理念。这好比在古代名画上涂抹现代色彩。传统的《赵氏孤儿》留给我们最为宝贵的文化基因是中国悲剧那种无怨无悔、不屈不饶地抗争精神。元杂剧《赵氏孤儿》中赵氏被奸臣屠岸贾陷害族诛。为了救孤，一群人前仆后继地为之牺牲。先是赵孤之母托孤后为解除后忧，立即自缢而亡。程婴藏婴于药箱里，被守门将军韩厥搜出后，为了隐瞒，将军拔剑自刎。屠岸贾得知赵氏孤儿逃出，下令屠杀全国婴儿。程婴为救赵氏孤儿，以独子相代。公孙杵臼假扮藏孤角色，自愿身死。程婴身负卖友背主骂名，忍辱负重，将赵孤养大。报仇功成之后，自杀以谢为之献身的同志。如《史记》所曰：“其言必信，其行必果，已诺必成，不爱其躯。” 慷概固执，令人肃然起敬。《史记》中写公孙杵臼与程婴为分担赴死和育孤两个角色的一段对话，曰：“立孤与死孰难？” 程婴曰：“死易，立孤难耳。” 公孙杵臼曰：“赵氏先君遇子厚，子彊为其难者，吾为其易者，请先死。” 从容赴死易，忍辱负重难。这成为不惜自污艰难赴险潜伏敌营悲壮心声的经典，反复在历史上被引用。这便是传统的《赵氏孤儿》的精华。也正是它能成为世界著名悲剧的原因。法国伏尔泰的改编虽然更改了部分情节，却忠实于这个历史遗产，讲求“以真实的历史事实感人”。陈凯歌的电影虽然保留了故事情节的框架，却为了让未经风雨的现代人感到合理，把壮烈感人的牺牲改成胆小人善心无奈之举，媚了“英雄可笑，自私合理”的俗，也割断了文化基因的传承。你能想象在西方西方剧场上演弃绝复仇，现代和谐版的《哈姆莱特》吗？; 个人分类: 随笔|8434 次阅读|5 个评论

电子商务的来龙去脉 -- 信用（2）: 热度 2 ywan 2011-9-29 02:03; 前面讲过，中文媒体里的电子商务其实包含公司之间的电子商务和面向消费者的电子交易两部分。公司之间的电子商务相对来说发展比较成熟，尤其是 EDI 这一部分。信用与配送也不是问题，因为这些都已经是公司内部或者公司之间供应链的一部分。互联网的出现实际上为公司节省了这方面的成本。而面向消费者的电子商务则存在一个取信与适应的过程。互联网泡沫的很大一块投入是花在了这方面。为了理清这一块，让我们看一下在 1995 年电子交易开始发展之前，都有哪些电子商务所需的基础构件已经成熟。我们可以分成四部分来讨论。它们分别是信用（没有这个，无法网上交易），信息标准化（商品标识和信息从生产商到消费者的标准传输），物流（如何把商品安全及时地从甲方送到乙方），与万维网（技术核心和交易平台）。 “信用”在英文里是用“ credit ”这个词，源于拉丁语“贷款”。马可波罗曾在他的游记中对元朝皇帝忽必烈的纸币羡慕不已。他发现，只要带上这么几张薄薄的纸片，就可以从远东走到中东，随时兑换金银和物品。其实在当时的中国，纸币已经不是什么新鲜的东西，二百年前的宋朝就已经以皇家的信用发行被称为“交子”的纸币了。中国应该是最尝试将统治阶级的信用通过类似于目前央行的机构转换成普通信用货币来流通的民族。只不过皇权的专制在与央行的调控中总是占上风的，所以中国历代的信用货币总是以恶性通货膨胀告终。欧洲要等到马可波罗之后 300 多年，才在法国菲利二世摄政时期，尝试发行信用纸币，当然后来也是以失败告终。相对于当权者们的过渡信用透支，商人们因为生意需要而建立起的信用系统则稳定的多。其实无论哪个文明，只要发展到商品经济阶段，涉及到货物和货款的赊欠，就存在一个信用问题。比如欧洲文艺复兴时期的威尼斯商人，中国明清时期的晋商（票号），和乾隆时期独揽中国进出口贸易的广东行商，都曾以拥有发达的信用网络而辉煌一时。有了这种信用网络，购买大宗商品不用再以金银货币实物交割，而是通过票据来结算。图四：清朝广东十三行繁盛时期的码头景象信用是通过交易双方的互相接触来建立的。当交易双方合作的潜在长远利益大于不合作所带来的短期收益时，合作就会成为均衡选择，信用也就建立起来。商人们发现合作能够带来更高的长远利益，所以选择了合作守信用。皇帝发现超量发行货币可以更好地满足自己的需求（其实是一种变相的征税），所以选择了不合作。值得一提的是，密执安大学的政治学教授 Robert Axelrod 曾经在上个世纪 70 年代搞过一个囚徒困境的重复博弈策略比赛。他让参赛者每人提供一个自己认为的最优博弈策略。然后，他将这些策略编写成计算机程序，并让每一个策略都与其它的策略进行博弈，然后看谁最后的得分最多。出乎他的意料，最优策略是非常简单的 Tit for tat ，中文可以翻译成“以眼还眼，以牙还牙”，基本方法就是首先选择与对方合作，如果对方也合作的话，下一轮就继续合作，如果对方这一轮不合作的话，那么下一轮也不合作，直到对方再次合作后，下一轮再选择合作。这个发现后来被很多学者验证过。我读博士期间，曾经用遗传算法的多主体计算机模拟重复了这个实验，结果发现模拟过程很快收敛到这个策略。这大概很好地解释了晋商和威尼斯商人们的信用原则。商人之间的信用固然可以通过这种相互直接交易的方法建立起来。但如果用来建立消费者的个人信用则不太实际。因为当一个商家要赊一件商品给消费者时（也就是分期付款），他并不知道对方的信用如何，更重要的是，他需要对成千上万的消费者同时作出决定。如果做错了的话，就是破产，没有下一轮博弈可以进行了。所以，这就需要一个第三方来帮忙估计一个消费者的信用度，然后商家根据这个估计来作出是否赊款，以及赊多少的决定。这套系统是美国人发明与完善的。; 个人分类: 电子商务|2374 次阅读|2 个评论

【笔记】囚徒困境与利他的进化: seawan 2011-3-21 16:45; 进化仿真可以发现“利他”的生成。囚徒困境是一个典型的案例。如果按个体利益来说，最佳选择显然是“defect”；但是，如果按“利他”原则，最佳选择是“cooperate”——而这是这个“集体”的最佳选择。因此，进化过程中，对“最佳适应”的追求，可以演化出来最优策略：“利他”。; 个人分类: 多主体系统|13467 次阅读|0 个评论

避开囚徒困境——再告诉你一点经济真相（30）: newniu 2010-10-27 23:59; 在讨论具体问题之前，我们不妨回顾一下自工业革命以来，在这个世界上发生的关键社会问题。我列举出4个，分别为反垄断、提高工人地位、自然环境保护和公共制度建设。这四个问题都与囚徒困境有一些联系。单单阅读囚徒困境的故事，似乎十分简单，并没有什么特别之处。不过它类似于数学中的1+1=2，外表平淡无奇，却属于最基础的事例。相信许多人看过囚徒困境的故事，不过为了更清楚一些，我还是把它列举出来。囚徒困境与市场有效警方逮捕甲、乙两名嫌疑犯，但没有足够证据证明二人犯罪。于是警方分开囚禁他们。现在甲、乙都知道的信息如下： 1 若一人认罪并作证检控对方（相关术语称背叛对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。 2 若二人都保持沉默（相关术语称互相合作），则二人同样判监半年。 3 若二人都互相检举（互相背叛），则二人同样判监2年。甲和乙只知道上面的信息，无法确定对方会怎么做。此时甲和乙遇到了两难问题。从共同利益上看，合作是最好，而从单人利益上看，背叛为最好，鱼和熊掌不兼得。这即是人们称之为囚徒困境的原因，困境即左右都不好。经济学创立者亚当斯密提出看不见得手，即含有背叛的意思。某用户想购买两辆汽车，有两位不同厂家的推销员来访问。假设厂家的汽车成本相同，而用户只想采购便宜的车辆。两厂家的推销员类似处于囚室的囚徒，都想把汽车销售出去，一方面是想多赚钱；另一方面是怕车卖不出去。用户要求推销员报价格，类似于囚徒，他们有两种策略。显然，推销员类似于囚徒，处于两难选择。亚当斯密提出看不见的手，相信只要人是利己的，并且是在竞争的情况下，借助市场机制这只看不见的手的引导，必然可以实现主观为自己，客观为别人这一社会最优结果。他即认为背叛是一种常态。斯密提出了一个前提条件竞争，即汽车厂的推销员会讨好消费者，选择背叛，不进行合作。市场有效的前提条件是竞争，而不能存在着广泛的合作，即企业面对消费者时为了赢利，会背叛其它企业。不过合作并非不可能，特别是人这么聪明的生物。囚徒合作会使他们获得更多收益，这样的合作即属于垄断，获取高利。为了对付警察，囚徒们会在犯案之前就想好方案，建立口供统一联盟。在市场上，企业主们同样存在类似的愿望互相联合。美国在19世纪与20世纪之交，出现了许多垄断托拉斯，例如标准石油托拉斯，钢铁托拉斯、铁路托拉斯。洛克菲勒、摩根等人建立托拉斯的目的就是为了合作，不再互相背叛对方。当囚徒们联合起来，斯密的看不见的手也不能再起作用，现在市场上只剩下一家垄断企业，不再竞争。不过很不幸，美国这些托拉斯随后遇到了老罗斯福，他用狮子般的利爪和坚牙把这些垄断托拉斯撕碎。如果说有什么好处，那就是美国随后在紧要关头追上了老牌日不落帝国英国。囚徒困境与竞争联系在一起，竞争意味着互相背叛。每家企业都竞相开发新产品和新技术，想法讨好消费者，而不是互相合作共同愚弄他们。这自然是市场经济最好的结局。保护环境囚徒困境有时会起到坏作用，最著名的是公共草地悲剧。这是一个关于牧民与草地的故事，当草地向牧民完全开放时，每一个牧民都想多养一头牛，因为多养一头牛增加的收益大于其购养成本，是有好处的。尽管因为平均草量下降，增加一头牛可能使整个草地的牛单位收益下降。但对于单个牧民来说，他增加一头牛是有利的。其他人受到了损失，不过他不用弥补。可是如果所有的牧民都想到这一点，都随意增加牛，那么草地将被过度放牧，从而不能满足牛的需要，导致所有牧民都无法获得收益。这个故事就是公共资源的悲剧，即是囚徒困境的延伸。哈定说：在共享公有物的社会中，所有人都要追求各自的最大利益，这就形在悲剧。每个人都被锁定在增加牛的个数之中，毁灭是所有人的结局。2001年4月16日香港《全球化监察》，以旁观者的角度描写了人类社会已经付出的代价贫富悬殊，生活疏离，环境破坏，资源耗损。大地、森林、河流、海洋、空气，皆被盲目的发展所榨取，所污染，所殖民，环境已经临近承受力极限。现在的环境悲剧与公共草地悲剧是一致的。公共草地的悲剧与囚徒困境中互相背叛的机理类似，只不过在这个条件下成为坏事。一个中国人是一条龙，两个中国人是一条虫，当只有一个中国人时，他的能量是惊人的，难以战胜。当两人以上时，大家开始互相拆台，各打小算盘。公共制度建设地球类似公共草地，所有人都在想法设法占用这片土地，现在环境问题摆在了每个人面前。温室效应、空气污染等问题已经成为全球性问题。看不见的手失去了效力，依靠单个企业无法解决整体性问题。囚徒困境从理论上说明环境保护必须通过齐心协力来完成，单单依靠企业自律是不可能的。那么制度和法规从后台走向舞台。显然，作为强力组织的政府正适合承担这一角色。1997年12月，《联合国气候变化框架公约》第3次缔约方大会在日本京都召开。149个国家和地区的代表通过了旨在限制发达国家温室气体排放量以抑制全球变暖的《京都议定书》，核心内容是减少二氧化碳等6种温室气体的排放量。到2010年，所有发达国家，要比1990年减少5.2％。除了政府间的协议之外，关于温室效应的危害也得到普遍宣传，得到人们广泛的理解。制度能够有效弥补市场的不足，这种事例处处可见。我们不妨再举两个例子，禁止超市免费提供塑料袋和禁止香烟广告。超市并不想免费提供塑料袋，却不得不提供。假设某个超市不提供，客户必然会到其它超市购买商品。显然超市面临着两个选择不提供塑料袋，客户流量减少或者提供塑料袋，保持客户。由于塑料袋很便宜，选择第二个显然更明智一些。北京市政府禁止超市使用塑料袋破解了难题。现在超市已经不免费提供塑料袋了，客户流量也不会减少。08年5 月31日是世界无烟日，据联合早报引述外电报道，世界卫生组织在世界无烟日前夕发表声明，呼吁世界各国全面禁止各类有关香烟的广告、促销以及赞助活动，阻止年轻人受引诱，染上吸烟的坏习惯。其实许多政府和行业对香烟广告进行了限制，比如俄罗斯、中国、澳大利亚等。不过政府禁令不仅没有打击烟草公司，反而把陷入白热化广告战的各大烟草集团解放了出来。由于烟草行业技术门槛低，完全依赖品牌效应，各企业竞争激烈。为了拼抢市场，烟草企业不得不耗费巨资做广告。由于大家都在做广告，其效果只能防止自己的客户被别人抢走，并不能增加多少客户。然而如果其中一家公司放弃做广告，它客户必然会流向其它品牌。烟草企业不得不面临着两难选择流失客户或者花巨资做广告。政府一纸禁令却轻易地把他们解救出来。制度和法律改变了激励机制。不妨从残酷的战争中寻找答案。作为单一士兵来说，生命是最重要的，当别人向前冲，自己向后退有利于保全生命。后退是士兵们的最优选择，然而当所有士兵都这样做，军队必然一触即溃。为了保证士兵不后退，军法对于后退者往往给予立斩处罚。后退者立斩即是制度和军法。士兵们只剩下两条简单的选择：要么选择后退和死亡，要么选择前进和生存。在某些情况下，有时将领有意把军队引入绝地，项羽破釜沉舟，断绝所有人的归路。在《孙子兵法》中，孙子也提出了围师必阙，穷寇勿迫，即包围敌人要留个缺口，对于走投无路的敌人不要欺人太甚，羊逼急了也会咬人。犯人之间在开始往往会有协议。有组织犯罪份子存在着帮规，有效地阻止了犯人互相背叛。制度和法律在维护市场正常运转方面也起着基础性作用。市场就像一场游戏，大家都想当胜利者。同时我们也知道，游戏需要规则，马走日，象走田，规矩非常重要。然而人们总希望突破制度和法律的制约，设法获得更多收益。老罗斯福撕碎托拉斯，并不是因为他是总统，而是因为托拉斯违反了规则。既然出轨了，对不起，挨大棒吧！从根本上说，制度对经济的影响，我们对此很容易理解，反而美英等国的人民很难理解。发达国家有自由的传统，政府对市场很少直接插手，法律也一直很稳定。老百姓感觉一切都挺顺利的，很难体会到制度和法律的作用。现在研究制度经济学的老外们对我国挺感兴趣的，这并不是说我国制度有多好，而是因为我们制度与他们不同，而且时常有变动，很有利于他们的研究。类似于国外的气象研究者与我国相关人员合作，并不是说他们对我们的成果很崇拜，而是因为我国有他们不具备的独特环境。由于缺少真实资料，那些研究新制度经济学的老外们只能在屋里埋着头乱猜、乱想，当然很难出个结果。然而当他们来到中国一瞧，马上被吸引住了，似乎到了一座独特的图书馆，里面有很多制度与经济方面的资料供他们参考和启发灵感。想想我国过去一百年里，制度变化有多剧烈吧！制度建设之一是文化建设，从思想层次上解决问题。俗话说盗亦有道，文化和宗教同样有效果。军队也同样如此，军法立斩并不能用于大规模溃退。其中一个办法是文化教育。剿灭太平天国的曾国藩在军事上很有建树，并留下了大批资料。他在创建湘军时很重视士兵选拔和思想教育。他挑选士卒的标准是择技艺娴熟，年轻力壮，朴实而有农夫土气者为上，其油头滑面，有市井气者、有衙门气者概不收用，一句话只选老实人。除此之外，曾国藩还亲手制定军纪、营规并编成通俗易懂的顺口溜，教士兵们唱，留传下来的有：《陆军得胜歌》、《水师得胜歌》、《爱民歌》、《解散歌》等。制度的成本市场的作用是交易，制度能够让两者做不成交易、或者很难做成交易、或者很容易做成交易。比如说某建筑公司要承担某大桥的任务，不过政府对建筑公司有资质要求。如果不具备，意味着你没有参与资格。不过万事也不绝对，你可以挂靠到一个资质更高的企业下面去做事。有时制度会增加成本。美国为了限制高技术出口，在企业并购、产品出口方面设置了许多障碍。联想并购IBM的PC部门就花费了很长时间和精力。与之类似的许多技术产品出口也有备案和审查制度，费神费力。制度成为一种成本，美国政府雇人审查，企业需要等待，还要去递交材料做解释。所有一切都不是无偿的。政府为什么要提倡企业、个人守规矩？其实原因在于守规矩有成本，要是没有成本，人们自然会去遵守。制度的指导意义。制度同样影响着人做某些事的成本，比如超生孩子罚款，人们就会少生孩子。这次奶粉中加三聚氰胺的事件，很重要原因在于对企业惩罚太轻，结果大家都不怎么上心。最近，我国政府提倡产业升级，要求企业转型，同样存在着激励和惩罚。如果我国对企业的科技发明进行重奖，就会有更多的企业开展技术创新。博弈中的信息在下围棋时，棋手轮流下棋，局面是清楚的。然而，当我们玩剪刀、石头和布时，却无法确定对方会出哪一个。在市场中，存在大量缺少信息的市场行为，比如说我们去竞暗标，结果只有最后知晓。我们不可能知道对方的底细，只能根据以往历史经验进行判断。同样，对方也是采用类似的方法来判断我们。类似于玩剪刀、石头和布，两方互相猜心眼。由于多方同时在操作，这意味着没有绝对获胜的策略。为了最大化自己自己的收益，必须依赖概率进行选择。在现实中，此类博弈更为真实。战争中，将领无法绝对地确定对方会怎么做。在企业竞争中，CEO只能根据过去的情况做判断，无法确定对方正耍什么花样。因此，概率才是真实世界的常态，这显然与我们追求稳定、绝对的思想相矛盾。这说明绝对正确、绝对不出错是不可能的，不仅是事实上，而且是理论上不可能。现在，许多人对自己有完美要求，追求绝对正确，这必然会引发心理疾病，使自己不敢面对现实。领导者对别人要求绝对正确，也必然使人们想法逃避责任。因此、人们必须树立概率的概念，以不确定应对不确定。博弈中还存在着另外一种信息缺失信息是确定的，只是我们不清楚，不了解。例如在一些可讲价的服装市场、二手市场，买主并不能完全把握产品质量，但是卖主掌握了更多的信息。这意味着买主不仅对差产品缺少认识，而且对好产品也缺少认识。结果形成一种逆向淘汰：价格高一点的好东西没有人买，价格低一点的差东西销路好。因此、在可讲价的服装市场和二手市场中，往往充斥着低劣的产品。逆向淘汰存在于经济中的许多方面。当前，许多高技术公司要求管理者一定要具有技术背景，根源即在于此。管理者如果不能更深入了解每个员工的情况，只是根据学校、专业进行排名或者只是根据简单表现进行激励，必然出现逆向淘汰现象。能力强的员工自然要向外飞，而留下的只是差一些的员工。很显然，深入了解员工，进行合理的激励是每个管理者必备的素质。特别是在高技术领域，管理者没有技术背景，必然无法对技术员工做到真正了解。这时只会出现逆向淘汰，能人全跑了。技术企业管理权下放，其根本原因是信息问题。领导者不能确定每个下级的业绩，干脆来个和稀泥，让下级自己们互相商量着决定好了。虽然说下级不一定能做好，但是总比自己随意指定好一些。在产品销售中，信息缺失也十分严重，许多产品只能看看和观察一下，很难把握住内在质量，不得不借助另外一些信号。人们会从广告、包装、售价等方面进行判断，显然制假售假者也非常熟于此道，尽可能在这些方面下工夫。前一段时间，政府多个部门联合发文规范月饼市场，纠正过度包装现象，即是一种反应。长期博弈博弈还存在着重复博弈，比如食品、服装之类的。人们会经常购买,销售者与购买者之间会经常性地博弈。消费者第一次上当，第二次就不会再次购买，销售者显然会受更多损失。另外，此类商品销量大，消费者甚至比生产者所知信息还要多。那么生产者自然没有必要进行费心思做包装，只求刚好即可，比如我们常吃的饼干、面包只有很少的包装。月饼包装豪华，就在于每年只有一次消费。当来年再买时，人们可能已经忘记今年的信息。月饼过度包装也就成为很自然的现象了。以重复博弈的眼光看囚徒困境，我们也会发现不同结果。假如囚犯没有其它生活技能，犯法更容易一些，那么他们在被释放后仍然会继续干违法勾当。甲和乙要考虑这一次背叛得了便宜，下一次被抓住，对方也会背叛我，我是不是要背叛呢？显然，甲和乙面临着一个取舍问题，他们即要考虑眼前，又要考虑长远。有了博弈论，那么我们自然会想到如何使用利用博弈论。由于我们不是重点讨论如何进行博弈，所以只能简单介绍。从总体上看，博弈分为三个层次。第一层次，加强对博弈体系深入了解，进行直接竞争，实现低成本领先。比如几年来，我国家电市场上的降价浪潮，那是一浪接一浪，每个月都降价，人民得了实惠，实力强的企业也发展壮大。第二层次，产品差异化竞争。我国奶制品市场上，从原来区区几个品种到现在几十、几百个品种。比如牛奶冰激凌、早餐鲜奶、婴儿配方奶粉、老年奶粉等等。除了产品种类以外，企业在原材料选择，质量稳定性等等方面也能够提供差异化，实现了高附加值。第三层次，改变博弈规则。比如说企业使用会员制，在企业与用户之间建立比较紧密的关系。假设海尔突然在北京搞了个海尔家电俱乐部。通过俱乐部形式，销售人员每年组织人员调查，及时了解客户需求，对客户产品进行有偿维护。这种行为加强了厂家与客户之间的关系，当客户有新需要时，他们自然会采购海尔的产品。会员制完全改变了游戏规则，从过去以企业为中心转移到以客户为中心，也在客户与企业之间建立感情的纽带。与前两个层次相比，第三层次已经不再只比质量和价格，还要比感情。工人的幸福生活上个世纪，工人收入得到大幅度提升，实现了富裕生活。西奥多罗斯福是一位划时代的人物。1901年首次邀请一位黑人在白宫共进晚餐。1902年，美国矿工联合会发动煤矿工人大罢工，罗斯福召集矿主和劳工领袖在白宫开会，达成妥协，将工作时间从每天10小时缩短到9小时，并且让工人得到10%的加薪，结束了持续163天的罢工。从整个社会角度看，工人收入提升有利于社会发展，不过同样存在囚徒困境。再进一步解释之前，我们先看一看马克思怎么说。马克思认为资本主义经济危机起源于生产与市场需求之间的脱节。为什么生产与需要脱节？根本原因还是工人太穷了，消费不起。当经济危机一出现，所有人都跟着倒了霉。我国政府一直在提倡扩大内需，可是工人收入普遍低，没有钱自然不能消费。西欧等发达国家实行福利社会，提高工人收入，从根本上创造了内需，实现了工人有钱消费，企业主有钱赚的双赢结果。每个企业主都会希望其它行业的企业提高工资，有钱购买他的商品。当轮到自己时，当然要尽可能压榨工人才有利于自己。面对这个死结，只有政府规定最低工资，实行福利才有可能解决。总之、囚徒困境引出的博弈论使人们对现实有了更清楚认识。他让我们对竞争、垄断、社会制度等各方面有更清楚了解。它也让我们明白信息在社会中的影响，以及不确定性存在的必然性。; 个人分类: 经济真相|3805 次阅读|0 个评论

“囚徒困境”中的老鼠: nevergu 2010-4-2 04:40; 人们之间互惠合作（ reciprocity-based cooperation ）是人类在漫长进化过程中形成的。也许，有人会认为互惠合作是人类优于其他动物的一个显著特征。其实，陆续有许多的关于动物间也存在这种现象的报道，比如，吸血蝙蝠（ Vampire Bats ），双色树燕 (tree Swallows) ，刺鱼 (Stickleback) ，黑斑羚（ impala ） , 兰鸦（ blue jays ） , 绢毛猴（ cotton-top tamarin monkey ） , 红翼背鸟（ red-winged backbirds ）和斑驳鷒科食蝇鸟（ pied flycathcher ）等。但是，无论是实验室条件和自然环境下，这些动物间的互惠合作现象的真实性存在着很多争议。其中涉及的机制认为有两种，一种强调亲社会倾向（ Pro-social propencity ），利他行为能使在自己在帮助对方后得到回报，所以导致相互合作；另一种从经济学的角度，认为动物间的合作是因为自身可以得到立时的好处或者未来会受益。这两种相反的机制都能在不同程度上解释合作现象的出现。事实上，人类之间的合作是上述两个方面的共同作用的结果。博弈论（ Game theory ）是公认的研究社会行为，特别是不同个体间基于经济学角度相互合作行为的有效工具。方锦清老师的博文《有趣味的博弈论模型》（ http://www.sciencenet.cn/m/user_content.aspx?id=244598 ）中说博弈论，也称对策论，它是模拟和分析理性的个体在利益冲突环境下相互作用的形式、决策及其均衡理论，研究个体之间行为的相互影响和相互作用规律，它可以描述现实生活中参与者面对有限资源的合作与竞争行为。。其中的囚徒困境（ prisoner's dilemma，PD ）是博弈论中具代表性的例子，反映个人最佳选择并非团体最佳选择。但是多次重复的囚徒困境结果和单次的不会一样。在多次重复的囚徒困境（ Iterated PD, iPD ）中，每个参与者都有机会去惩罚另一个参与者前一回合的背叛或不合作行为。对手以牙还牙的惩罚会压制欺骗或者背叛的动机，最终可能导向合作双赢的结果。为了使大家对于囚徒困境有进一步的了解，引述百度百科一段解释：　　 1950年，由就职于兰德公司的梅里尔弗勒德（Merrill Flood）和梅尔文德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特塔克（Albert Tucker）以囚徒方式阐述，并命名为囚徒困境。经典的囚徒困境如下：　　警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：　　若一人认罪并作证检控对方（相关术语称背叛对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。　　若二人都保持沉默（相关术语称互相合作），则二人同样判监半年。　　若二人都互相检举（互相背叛），则二人同样判监2年。　　用表格概述如下：　囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚徒招供，因为囚徒们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式: TRPS 以人类为对象的囚徒困境试验已经有无数报道，密西根大学政治学教授Axelrod先生在其代表作《合作的进化》（The Evolution of Cooperation），探讨了合作演化的内在机制。Axelrod教授为此以重复进行的囚徒困境博弈为模型，在全球范围内组织了一次策略竞赛。参赛者通过编写计算机程序来完成囚徒困境博弈，通过最终的收益来确定优胜的策略。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。赢得了比赛的程序是所有参赛程序中最简单的，据说只包含了四行BASIC语言，它采取的策略是以牙还牙（tit for tat)。即根据对方合作或背叛，调整自己的策略，对方合作即在下一轮合作，对方背叛即在下一轮背叛。那老鼠面对囚徒困境会怎么选择呢？来自葡萄牙的科学家设计一组很巧妙的试验，观察大鼠面对这种困境的选择，他们是用食物作为奖赏，掐夹尾巴（tail pinch)作为惩罚，具体就是：T(背叛诱惑)=6 颗食物，R（合作报酬）=4颗食物，P（背叛惩罚）=1次夹尾，S（受骗支付）=3次夹尾。结果显示，大鼠能够区别不同的奖赏和惩罚，第一次合作的比例比较低，从第二次开始，合作的比例很快增加到63％，并且一直可以维持到10次。合作远远超过背叛。更为惊讶的是，老鼠也会采取人类相似的以牙还牙策略，如果对方多次选择背叛，合作的比例会很快下降。试验是按照TRPS设计的，自己背叛，对方合作，自己利益最大，反过来，对方的损失最大；双方合作次之，利益均等；双方都背叛，都受惩罚。其实，惩罚和奖赏，好多动物都可以区分，这个试验最大的发现是大鼠可以区别这些细微的差异，6颗食物和4颗，一次夹尾和3次，并且能调整自己的策略。文章涉及内容很多，我对博弈论不是很熟悉，有兴趣的朋友可以阅读文章： Viana, D., Gordo, I., Sucena, ?., Moita, M. (2010) Cognitive and Motivational Requirements for the Emergence of Cooperation in a Rat Social Game . PLoS ONE, 5(1). 　; 个人分类: 科普大众|7746 次阅读|1 个评论

也谈博弈: fouyang 2010-3-17 07:22; 最近方舟子写了一篇关于博弈论在生物学中应用的文章(1)，其中介绍了麻省理工学院Gore等人关于酵母菌在产生单糖策略上的合作与欺骗的研究(2)。“传播数学”对此发表了一篇评论，指出方舟子文章中的一些问题，同时也给了一些关于博弈论的介绍(3)。方舟子为此贴出回应，被网友作为评论转帖到“传播数学”的文章后面 (4)。其后，“传播数学”又写了两篇回应文章(5)(6)。这些文章中有很多涉及人身攻击的语句，起因于网站与网友之间的恩怨。但是其中涉及到的争论确实属于一个科学问题，值得继续探讨。本文试图局限于科学范围，对这两位作者的争论提出自己的理解。方的回应提出有两点(4) ：1.酵母菌的研究是否属于“博弈论”。2.“囚徒困境”是否稳定。本文试就这两个问题进行讨论。关于此问题的背景和有关知识，在以上引用的文章中已经很好地介绍了，这里就不再重复。麻省理工的工作是否属于博弈论？ “传”文认为，因为酵母菌的行为是由基因决定的，不能改变，所以这个酵母体系是个动力学问题而不是博弈问题 (3) 。但在后续讨论中，作者也指出，种群中“好人”和“坏人”的比例，是可以与“个人”的选择策略联系起来的(7)。他说：“设想一下在两种酵母都稳定的情况下, 新加入种群的酵母, 当好酵母和当坏酵母, 收益都一样才行, 否则种群不能平衡。” 方文认为，原论文摘要的最后一句提到了“strategy”和“cooperate”这样主观的词，所以显示这是博弈(4)。为了解决这个问题，需要看一看“博弈”的定义。以下是一本博弈教科书的开头：(8) “博弈论是关于冲突与合作情况的逻辑分析。具体地说，“博弈”定义为具有如下特征的情形：至少有两个参与者。参与者可以是个体，也可以是公司，国家甚至生物物种。每个参与者有若干个可能的策略，即他所遵循的行动计划。参与者选择的策略决定了博弈的结果。与每一种可能的博弈结果相联系，对每个参与者都有一个数量化的回报值，代表了这个结果对于各个参与者的价值。可见，一个博弈需要有至少两个参与者，每个都有不同策略的选择。而且博弈还需要定义一套回报函数。那么对于参与者和回报函数这两个要素，这个酵母菌工作是否满足呢？让我们来看看这个工作的原始论文(2)。这个工作的主要内容，是研究一个酵母群体中，制造单糖的品种（“好人”）与不制造单糖的品种（“坏人”）之间的比例。作者发现，这个比例随着时间延续会达到一个稳定值。这个稳定值与初始条件无关，而与培养基的条件有关。根据我的理解，这个系统可以用下面的方程来描写：【注一】 R_c=f(S+s)-e R_d=f(S) 这里R_c和R_d是合作者（好人，c）和叛变者（坏人，d）的生长速度。S是环境中单糖的浓度。s是“好人” 截留的单糖量。【注二】 f是一个函数，表示回报值依赖与酵母能得到的糖的总量。这是一个递增非线性函数，其斜率随自变量增加而递减。e 是“好人”的代价。它有两部分。一是制造单糖的代价（耗费能量），二是 “好人”对组氨酸的特有依赖性（可能是人工引进的）。在培养基中组氨酸浓度降低时，e的值增大。单糖浓度S取决于“好人”的比例和外加单糖的浓度。好了，现在我们可以看看这个体系的“动力学”了。在“好人” 比例低时，S值小。f随自变量的增加快。所以 R_c通过f 得到的好处多于通过e付出的代价。“好人”占优势。但在“好人” 比例高时，S的值大，f随自变量的增加变慢。这样“好人”通过f得到的好处少于代价，就处于劣势。在两者之间，有一个平衡点，使得 R_c=R_d 这个对应的“好人”与“坏人”的比例就是平衡比例。通过改变培养基中外加单糖浓度和组氨酸的浓度，可以改变这个平衡点。这样，基本就可以描出f函数的特性来了。你看，我描述这个工作，根本没有用到博弈论的语言。与上面博弈的定义对比，我们也许可以说“生长速度”相应于回报函数。但这里没有“策略”的选择。即使我们把“好人”和“坏人”的比例看成是等价于个体对于混合策略的选择(9) ，那也只有一个参与者。个体“博弈”的对象是它的环境，而这个环境是固定的。个体需要考虑的，只是如何在给定的R_c和R_d中选择较大的一个。所以在这个意义上说，这是一个优化问题，而不是博弈。在Gore等的工作中，个体与其他个体的相互作用是通过环境来实现的，而环境只是反映了其他个体行为的总和，而不是每一个个体的行为。关键问题不是所考虑的个体有没有策略上的选择，而是它的“对手”有没有策略上的选择。Gore等工作与博弈论的关系，只是表明了酵母系统的“回报函数”属于雪堆博弈而不是囚徒困境。而Gore 等对于参与者的策略的考察并不属于博弈论。囚徒困境和雪堆问题之所以引人入胜，不只是因为它们的回报函数反映了现实中的很多现象，而且是因为它们引出了博弈论的一些基本概念（如多次博弈，混合策略等等）。而这些概念在Gore等的文章中没有体现出来。关于方文的争辩(4)，Gore等论文摘要的最后一句的确提到strategy（策略）。但是摘要的那一句是总结论文中的一个观察，就是“好人”种的酵母并不总是合作（制造单糖）。在单糖浓度较高时，它会改变行为停止制造单糖，也就是改用“坏人”策略。但是这个观察与论文的主要结果没有关系。在论文附录(10) 图5的说明中，作者提到，以上几段所提到的“竞争实验”是在低单糖浓度中进行的，所以“好人”菌种总是在制造单糖。进一步分析也可以旁证这一点。从论文附录图5a看，酵母单糖转换的能力大约在单糖浓度为0.01%时开始下降，到单糖浓度为0.1%时降为零。而从论文(2)图3看，所有结果都在单糖浓度在0.01%以下就清楚显示了。对照图3a与图1中的“好人”比例，我们可以看出图1也是在单糖浓度低于0.01%（“好人” 比例高于10-3）的情况下的。所以，“好人”与“坏人”的转变与这部分研究没有关系。但是Gore等论文的确多次提到博弈论，以此作为他们讨论的语境。那么是不是在生物学研究中，“博弈”的意义有所不同呢？的确，有一门“进化稳定策略”（Evolutionarily Stable Strategy, ESS）的学科，有时也被称为“进化博弈论”（Evolutionary Game theory）。它并不假定个体有选择策略的自由。但通过采用不同策略的个体的生存情况来分析群体的进化。这一点很像Gore等人的工作。有人评论说，这个ESS理论的出发点实际上与博弈论很不一样。而它的平衡点与纳什平衡点相同（在大多数情况下），应该说是一个意外(11)。 ESS的创始是J. Maynard Smith(12)(13)。在(13)中，作者说道：“一个ESS可以是混合策略．．．这时候，一个稳定的群体可以是遗传上多形的（genetically polymorphic），其中有适当比例的个体采用某种纯策略。或者，它可以是单形的（monomorphic），其中每个个体都适当地随机选取策略。”这前一种情况就相对于Gore等论文的情况。所以Gore等的工作可以说是属于ESS 的。然而，即使在ESS中，人们也常常是考虑个体之间的博弈，而不是个体与环境的博弈。如Maynard Smith的工作(12)(13)就是考虑动物种群内个体之间争斗的策略（既要赢，又不能彼此消耗太多）。Gore 等人引用的另一篇Wxelrod和Hamilton的工作(14)，也是关于个体间“囚徒困境”的互动。这篇论文还花了很大篇幅讨论“记住对手”的能力在互动中的作用。事实上，该论文结论就很依赖于两个个体有足够高的机会再次相遇（以下还要讨论）。所以，我们看到有一些ESS工作比Gores的更接近博弈论。但目前我不知道有多少ESS工作与Gore等的工作是一类的。综上所述，博弈论的基本概念来看，他们的工作至少不算博弈论中具有挑战性的部分。作为普通报刊上的科普文章，跟从原作者的意思而将之看为博弈论工作也不算大错。只是读者不要得到这样的印象：这样的工作已经涵盖了囚徒困境和雪堆问题的主要课题。 2. “囚徒困境”群体是稳定的吗？方文说道：(1) “他们认为这像是“囚徒困境”。在这样的群体中，好人和骗子分享全部的资源，而好人要承担生产成本，因此好人总是竞争不过骗子，一旦出现骗子，它们的后代数量会越来越多，好人的数量会越来越少，等到骗子们统一了天下，末日也就快到了，好人遗留下来的单糖被耗尽后，群体就会灭绝。一个处于“囚徒困境” 的群体是很不稳定的。”“传”文认为，“囚徒困境”在多次博弈的情况下，“以牙还牙（tit for tat）”的策略是稳定的。这一点的根据是Axelrod的文章 (14)。方的回应 (5)则根据Gore等论文中的一段话来证明“囚徒困境不稳定”是科学界共识：“在这种情况下，欺骗者总是会比合作者长得快，它们之间的相互作用就成为所谓的囚徒困境，而在这种情况下合作策略不能在充分混合的环境下持续”。在另一个类似的工作中 (15)，作者也说：（关于囚徒困境博弈）“在合乎生物现实的仿真中表明，当存在重复互动，变异，错误时，或者在一个具有空间结构的环境中，没有单一的稳定解。而且个体策略的演变可以是周期性的或杂乱无章的。” 在ESS中，“稳定”的含义是：采用一种策略的群体不能被采用其他策略的群体侵入(13)。也就是说，少数采取其他策略的个体不能占到便宜而壮大起来。而众所周知“合作”不是囚徒困境中的稳定策略。但这不等于囚徒困境的系统就不能采取其他策略而达到稳定。（有趣的是，在Gore等的论文中，通篇没有用“稳定“这个词，而只是说“平衡”。）从文献上看，Axelrod等关于囚徒困境和生物群体的工作(14)只是这个领域的开始。这个工作证明， “以牙还牙”的策略在囚徒困境群体中是稳定的。但是，这需要一定的条件，主要是开始就有足够多的“以牙还牙” 者，而且个体之间有足够高的重逢的机会。Axelrod等的论据是：只要能做到“日久见人心”，任何其他策略在“以牙还牙”面前都占不到便宜。但是后来有人指出(16)，这样的证明是不够的，因为可能有第二种策略（比如“以牙还牙”的一个变种）虽然在对付“以牙还牙”时不相上下，但在对付第三种策略时比“以牙还牙”有效。这样当第三种策略不断入侵时，这第二种策略就会占上风。当博弈的规则有少许变化（例如允许“骗子”躲避受过骗的人），或者在群体中引入空间结构时，情况还会更为复杂。囚徒困境的群体稳定是一个相当复杂有趣的问题。是否稳定与很多因素有关(17) (18)。然而，在Gore等工作的语境内，以上的讨论都不适用。因为这里没有个体之间的多次博弈，所以类似“以牙还牙” 的策略不能被采用。在这种情况下，正如方文所说，任何试图合作的个体都会吃亏，最后“骗子”占据整个群体。也许这就是方所说的“不稳定”的含义。但是，“骗子当道”却是ESS意义上的一种稳定策略（“骗子”群体不能被“好人”所入侵）。Gore等文章中说的“合作策略不能持续”（至少在ESS的意义上）不能等同于“不稳定”。方文中的不稳定，也许是指他前面的一句话：“等到骗子们统一了天下，末日也就快到了，好人遗留下来的单糖被耗尽后，群体就会灭绝。”但是，这不仅不是ESS意义上的不稳定，而且依赖于一个条件，就是“骗子黑吃黑”的回报函数使得群体不能生存。这个条件对我们面对的酵母菌问题是成立的，但对于囚徒困境问题来说不是普遍成立的。例如，如果外界能提供少量的单糖，那么一个“骗子当道”的群体虽然不如一个合作的群体活得好，但还是活得下去的。所以，方的原话应该被理解为对于一个特定情形的评论，而不是一个具有普遍性的陈述。综上所述，虽然争论双方看来针锋相对，实际上只是在不同的视界看问题而已。对于有不同背景的人，对一些词语和陈述的理解不同是自然的。如果硬要分出胜负，往往会走向“咬文嚼字”的牛角尖。但是除去人身攻击部分，这些讨论还是有助于读者超出直接讨论的论文而得到更全面的知识。 “掐架，是学习的动力。” 【注一】这个方程是大大简化和不严格的，其目的只是要指出下面谈到的特征。【注二】严格地说，“单糖浓度”和“单糖量”不能直接相加，需要一个换算。不过这个关系不大，这里就不考虑了。 Bibliography 1. 方舟子. 好人和骗子的博弈. 方舟子的blog. April 15, 2009. http://xysblogs.org/fangzhouzi/archives/4564. 2. Gore, Jeff, Youk, Hyun and van Oudenaarden, Alexander. Snowdrift game dynamics and facultative cheating. Nature. April 6, 2009. http://www.nature.com/nature/journal/vaop/ncurrent/abs/nature07921.html. doi:10.1038/nature07921. 3. 传播数学. 好人和骗子没博弈. 数学科普. April 19, 2009. http://www.de-sci.org/blogs/math/archives/29090. 4. 匿名. 评论. 数学科普. April 19, 2009. http://www.de-sci.org/blogs/math/archives/29090#comment-169159. 5. 传播数学. 答新语丝网友们. 数学科普. April 19, 2009. http://www.de-sci.org/blogs/math/archives/29114. 6. —. 囚徒困境的稳定性, 简问方舟子先生第二次. 数学科普. April 20, 2009. http://www.de-sci.org/blogs/math/archives/29195. 7. —. 评论. 数学科普. April 19, 2009. http://www.de-sci.org/blogs/math/archives/29090#comment-168938. 8. Straffin, Philip D. GameTheory and Strategy. Whashington DC : The Mathematical Association of America, 1993. ISBN 0-88385-637-9. 9. Wikipedia. Strategy (Game theory): A disputed meaning. Wikipedia. http://en.wikipedia.org/wiki/Strategy_(game_theory)#A_disputed_meaning. 10. Gore, Jeff, Youk, Hyun and van Oudenaarden, Alexander. Supplementary Information to Snowdrift game dynamics and facultative cheating. Nature. April 6, 2009. http://www.nature.com/nature/journal/vaop/ncurrent/suppinfo/nature07921.html. doi:10.1038/nature07921. 11. Wikipedia. Evolutionarily stable strategy: motivation. Wikipedia. http://en.wikipedia.org/wiki/Evolutionarily_stable_strategy#Motivation. 12. Maynard Smith, John; Price, George R. . The logic of animal conflict. 1973, Vol. 246, 15-18. 13. Maynard Smith, J. The theory of games and the evolution of animal conflicts. Journal of Theoretical Biology. 1974, Vol. 47, 209-221. 14. Axelrod, Robert and Hamilton, William D. The Evolution of Cooperation. Science. 1981, Vol. 211, 1390. 15. Greig, Duncan and Travisano, Michael. The Prisoner's Dilemma and polymorphism in yeast SUC genes. Proc. R. Soc. Lond. B. 2004, Vol. 271, S25-S26. 16. No pure strategy is evolutionarily stable in the repeated Prisoner's Dilemma game. Boyd, Robert and Lorberbaum, Jeffrey P. 58-59, s.l. : Nature, 1987, Vol. 327. doi:10.1038/327058a0. 17. Brembs, B. Chaos, cheating and co-operation: potential solutions. Oikos. 1996, Vol. 76, 14-24. 18. Doebeli, Michael; Hauert, Christoph. Models of cooperation based on the Prisoner's Dilemma and the Snowdrift game. Ecology Letters. 2005, Vol. 8, 748-766.; 个人分类: 学海无涯|3439 次阅读|0 个评论

经济学家证明的生存法则，与高尚和卑鄙无关: shareworld 2008-10-22 15:14; 我相信这个简单的道理，而且在生活中奉为圭臬。我既不希望成为一个高尚的人，也不希望成为一个卑鄙的人。高尚是高尚者的墓志铭，卑鄙是卑鄙者的通行证。我对这些不感兴趣，我只希望能够和这个世界和谐相处。经济学家给了我一个很好的向导。为了解释这个经验信条，先介绍一个经济学著名的案例囚徒困境。两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。如果你是囚徒之一，你会如何选择？毫不犹豫，我选择坦白。因为： 1. 如果另一个人坦白。这样我因为也坦白了，所以判八年。如果我抵赖的话，我就要判十年了； 2. 如果另一个人抵赖。这样我因为坦白，就可以无罪释放了。如果我抵赖的话，我就要判一年了。所以，不论另一个人怎么选择，我都会选择坦白。这样总是很占便宜。再深入地想一想，如果两个囚徒没有被隔离呢？显然，都抵赖是最好的选择，无罪释放。但是要有一个前提条件，那就是彼此知道对方下一步的行动！生活比一次囚徒困境要复杂得多。但是，细细分析，我们可以认为生活就是一次次的选择，这也就意味着我们在生活中要一次次地面对囚徒困境。在很多可以达到利益最大化的时候，我们很自觉地做出了别的选择。不因为别的，只是因为我们对另外一方太不放心。出尔反尔的事情，太多了。经济学家对此很感兴趣，他们做了一个试验，要求很多人参加进来，他们被要求在不断发生的囚徒困境中做出选择。那些能够坚持到最后的，能够获得大奖。结果出来之后，令很多人吃了一惊。因为最后胜出的那一位，奉行了简单而又坚定的游戏规则：一报还一报。也就是说，如果你跟我合作而背叛了我，那只要你还跟我合作，下一次就是我背叛你；而如果你跟我合作而没有背叛，那下一次跟我合作，我坚决不背叛！仔细想想，也就是这个道理。在这个世界上，也许通过这样的一个规则，我们能够找到忠于自己的朋友，能够规避背叛的风险，从而让我们的生活更加幸福。你赞同这个观点吗？我赞成！我在这里声明，你过来访问我的博客，我肯定会回访的！; 个人分类: 我有一个收获|898 次阅读|2 个评论

更多...

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

标签: 囚徒困境

相关帖子

相关日志

关闭安全验证