2020年9月19日至20日,中国科学院自动化研究所在线上召开了首届智能决策论坛,多位专家学者围绕决策智能相关研究内容进行深入探讨,试图廓清决策智能的边界与内涵,为我国决策智能的发展与应用指明方向。本文将对论坛中上海财经大学陆品燕教授、北京理工大学刘正阳助理教授、上海科技大学赵登吉研究员带来的关于机制设计的相关理论与研究成果进行介绍。
在经济学领域内,机制设计理论可以通过如下描述进行定义:该理论可以看作是博弈论和社会选择理论的综合运用,假设人们的行为是按照博弈论所刻画的方式,并且按照社会选择理论对各种情形都设定一个社会目标,那么机制设计就是考虑构造什么样的博弈形式,使得这个博弈的解最接近那个社会目标。机制设计的目标是研究在自由选择、自愿交换、信息不完全及决策分散化的条件下如何设计一套理论达到既定的目标。所以在实际中,机制设计有丰富的应用场景,也有着许多与博弈论和决策相联系的研究与讨论。
一、机制设计与拍卖
拍卖是现代人类将货物置换为货币的一种常用的经济手段,拍卖手段一般适用于卖家不知道定价或者难以根据规则制定物价的场景,比如卖家对买家没有足够的信息,又比如卖家需要出售像艺术品、土地这类不太容易做市场调查、价格波动性也很大的商品。由于很难直接制定一个合适的价格,所以合理的拍卖形式可以给卖家带来更大的期望收益。实际上,拍卖不仅存在于一些公开竞拍的场合,诸如广告位的竞争、二手物品的买卖活动等一些看似与拍卖不同的经济活动,其实都在形式上与拍卖相关,而且各种拍卖中隐含的信息与策略远远比一般认知要更复杂。在本届论坛中,陆品燕通过报告《Optimal Competitive Auction》对在不同的条件和环境下如何获得最优拍卖机制的问题做出了解答。
陆品燕作报告
关于最大化拍卖收益的问题,陆品燕在报告中提到了一种威尔逊在1981年提出的最优拍卖机制,其目标是最大化期望收益。这个机制的设计基于买家对商品的估价来自于一个已知的分布,然而如果我们不知道这个估价分布,又该如何评估哪个拍卖机制更好呢?事实上,不可能有一种拍卖机制在所有可能的分布下都做到最优,而且有时很难评价两个拍卖机制孰优孰劣。因此,研究人员设计了一个标准——通过比较每个机制和标准,来评估拍卖机制的好坏。后来,威尔逊发展了拍卖理论,并提出了拍品的“共同价值”(common value), 即拍品价值中对所有竞拍者相同的部分。然而,竞拍者并不一定了解拍品的共同价值究竟有多少,只能基于已知信息进行猜测。此外,通过模型推导,威尔逊证明理性的竞拍者出价总会低于其猜测的共同价值。除了在拍卖理论上的贡献,威尔逊和米尔格罗姆还提出了同时拍卖许多相互关联物品的新形式,其目的在于获得广泛的社会利益,而不是最大收益,由此同时增进了竞拍者、拍卖者和整体社会的利益。
二、机制设计与定价
除了拍卖以外,现代人类将商品转换为货币的另外一个更重要的手段是对商品进行定价出售。对于商品来说,它往往能够被大批量生产和供应,其价值、供需关系、目标群体往往相对比较固定,而其销量、顾客接受程度往往与价值、定价等因素有着较强的关系,且有一定的规律和实践经验可以遵循。基于传统经济学的产品定价策略研究已有深厚的历史积累,强化学习和机制设计的结合则开辟了一个全新的研究方向,它有望使商品的定价对顾客更具针对性,在售出更多商品的情况下保障每份商品利润的获取。那么,商家在实际操作中又将如何通过强化学习和机制设计的手段设计定价策略以实现期望利润的最大化呢?刘正阳在《On the Complexity of Sequential Posted Pricing》报告中对此发表了看法。
刘正阳作报告
刘正阳首先介绍了complexity在博弈和强化学习中的重要性,以及Sequential Posted Pricing(SPM)的定义。在Bayesian设定下,他通过如下示例讲解了SPM的定价策略:一个卖家拥有一个商品,n个买家想要购买这个商品,需要让这些买家排成一个序列。买家i对于商品的估价Vi 是通过一个概率分布Di 采样获得的,卖家虽然不知道每个买家对商品的估价,但是预先知道其分布Di 按照买家出场的顺序,如果有买家i觉得自己“物超所值”,也就是定价 Pi 低于自己的估价Vi ~Di,那么整个过程结束,买家i支付Pi 后拿走商品。SPM的目标是通过对不同买家进行适当的定价,让卖家获得最高的利润。对于SPM,其复杂性常由决策问题SPMRev来定义,输入为I(所有人对价格估计的集合)以及一个有理数t,输出为判断是否有一个映射SPM(π,p,I)使得卖家最终受益期望大于t。当估价概率分布中support=3(概率非零的样本集合π,p,I数量为3)时,该问题为NP困难;而当support=2时,该问题则具有多种对应的算法可以解决。随后刘正阳介绍了部分算法并对主要结果进行了证明。
三、社会交互的机制设计
机制设计不仅在经济活动中发挥着很大的作用,它还存在于其他很多场景。例如在社会交互领域,机制设计就在资源分配、任务分配、信息交互等不同现实社会场景下有着很大的应用潜力。合理的社交网络机制设计有助于企业或机构中的参与者互相合作获得更大的利润。机制设计在这一方面已有一些相关研究,如经典传统模型中的反向博弈论可以在给定纳什均衡点的情况下,设计合理的游戏机制使得该游戏最终达到纳什均衡点。但是在这些传统模型中,竞争者之间更倾向于阻止其他人的参与而非追求合作,如果想要进一步提升模型效果,则需要更换思路:找到一些解决办法使各竞争者在竞争的同时产生一定的合作来进一步提高总体的收益。赵登吉在《Mechanism Design Powered by Social Interactions》报告中对讲述了对此的理解。
赵登吉作报告
赵登吉首先介绍了“Diffusion Mechanism Design”模型。模型通过给处于中间关键节点的参与者恰到好处的奖励作为激励机制,从而鼓励他们积极寻找潜在的更高出价者。虽然出价者与节点参与者本身具有竞争关系,但由于奖励机制的合理设计,这些节点参与者们仍然有希望得到更高的收益,这一点保证了该模型能让更多的人参与到这个资源分配活动中来。与此同时,该模型也能够保证活动组织者的收益不会因过多的不合理奖励而受到损害。
随后,赵登吉介绍了该模型在任务分配与信息传播场景下的应用。在任务分配中,传统的基于“Shapley Value”的模型无法有效在能力相当的两个贡献者之间实现任务分配,针对这一问题,赵登吉提出了“Layered Shapley Value”模型,保证新邀请的人不会影响已有成员的收益。在信息传播方面,当总奖励恒定时,合理的奖励分配可以鼓励参与者做出更高效率的信息传播,赵登吉介绍了“Maximal Information Propagation”模型,该模型在信息传播中引入了竞争机制,通过给予传播更积极的参与者更高的奖励,利用同辈压力来激励大家传播信息。
四、机制设计的应用前景
除拍卖和游戏比赛之外,机制设计的应用场景还包括垄断企业定价、政府税收政策的制定、政府对企业的规制、公共产品的供给等等一系列经济活动和人类社会活动,如何设计合适的机制对促进未来的发展至关重要。
工银国际首席经济学家程实认为,总体而言,今年两位诺贝尔经济学获奖者的学术探索(与机制设计相关)表明,为了实现有限理性、信息不对称条件下效率与公平的最优兼顾,机制设计的细节非常重要。当今世界,新冠疫情反复,全球经济萎靡,保护主义盛行。从变局中开新局,需要注重细节、尊重现实、激励兼容的机制创新,进而为国际秩序重建、疫情防控与经济恢复创造条件。
目前我国正在进行的社会主义市场经济体制改革,不啻于是在机制设计方面的一次重大变革。在当前国际政治格局错综复杂、大国博弈合作竞争的整体环境下,机制设计问题在各个领域均有着重要意义。如何科学合理地进行机制设计,是需要进行探索研究的重要方向之一。
撰稿:张海峰,孟令辉,张笃振