前言:中文期刊网精心挑选了数学建模博弈论范文供你参考和学习,希望我们的参考范文能激发你的文章创作灵感,欢迎阅读。
数学建模博弈论范文1
【关键词】博弈论;认知无线电技术;频谱分配
前言
认知无线电系统具有智能性,可对周围环境做出感知,并从中获取信息,获取时利用“理解-构建”法,同时,传输参数能够实时改变,与运行环境相适应,促进频谱利用效率的提升。在认知无线电系统,策略选择问题存在于多种关键技术中,而博弈论可为最优策略的选择提供指导,因此,利用认知无线电技术分配频谱资源时,可充分的借助博弈论的作用,提升分配的科学性。
1博弈论概述
决策主体包含多种行为,行为间直接相互作用时,会产生相应的决策,研究该决策及其均衡问题的理论即为博弈论[1]。换言之,一个主体与其他主体间的选择会相互影响,此时的决策问题与均衡问题就是博弈论研究的重点。由此看来,博弈论也可称作“对策论”。现实生活中,比较常见冲突、竞争及合作现象,对于厉害冲突问题,博弈论会采用严谨的数学模型解决,因此,该理论可应用于多个领域中。
2频谱分配算法设计
2.1算法目标分析
认知无线电中,实际需要为分配频谱时的依据,实际需求不同时,分配目标也会存在一定差异。在博弈论基础上,认知无线电分配频谱时,目标应为最小化系统总干扰水平,即最小化各节点用户受到的干扰。
2.2效用函数的选择
算法目标确定后,采取何种效用函数描述干扰情况为接下来的工作。众所周知,通过效用函数,可将用户对于某个特定信道的性能反映出来。效用函数选择时,并不具备唯一性,但对于某个特定应用,最终选择的效应函数必须具备物理意义、数学性质[2]。通常,以自私用户情况作为考虑情况,在某个特定信道上,对其他用户的干扰级别作出感知,之后以此为依据,完成信道评估工作。自适应算法中,最小量信息是效用函数U1需要的,也就是以不同信道为基础,测量出某个特定用户的干扰。不过,效应函数U1对于自身选择影响其他用户的情况并未考虑,而干扰在用户间互相存在,因此,算法目标并无法实现。本文中改进了效用函数U1,在某个特定信道中,同时考虑用户受到的干扰以及用户产生的干扰,改进后的效用函数U2表述如下:j≠i,j=1效用函数U2组成部分包含两个:一个为其他用户对用户产生的干扰Id,另一个为用户自身产生的干扰Io,将这两个部分的表达式带入效用函数U2表达式后,形成新的表达式:U2i(si,si-1)=-Idi-Ioi,坌i=1,2,…,N测量值Id、Io时,前者通过接收端,后者通过发射端。
2.3算法提出背景与假设
假设:频分复用技术为认知无线电系统所采用的,如正交频分复用(OFDM),分配频率就是分配通信信道;小区中能够传输数据的频率信道有K个,且有N对认知无线电用户,N>K;算法中传送信令包时,采用一个公共控制信道,与此同时,各阶段发射端、接收端的传递与接收信息均在此信道中进行,主用户频率不会干扰信道;算法中节点为固定后,或缓慢的移动,慢于收敛速度;对于小区中的各个节点,每个节点都知道其他所在的位置,而且增益矩阵GN×N保存一个,链路增益记录在其中,计算链路增益时,以小区中节点设置位置为依据;在一个信道状态表(CST)中保存各节点的发射端、接收端,其他通信节点占用数据信道的情况记录其中[3]。
2.4算法初始化
在认知无线电小区中,为保证各个用户均能将自身效用函数U2值计算出来,必须要初始化信道分配,通常随机设置初始状态。因在增益矩阵、CST中保存小区用户的发射端与接收端,可在初始化假设中获得数值。小区中,用户并不具备相等的发射功率,于初始化阶段设置其值,执行算法期间,该值并不改变[4]。此外,在一个算法周期中,公共控制信道上传送信令包问题会涉及到,若此公共控制频道被两个用户同时使用,冲突会产生,因此,策略更改能进行一次,并只有能一个用户完成,那么,下一算法周期执行时,选择具体用户的决定利用贝努利试验。
2.5算法使用的信令协议
设计信令协议时,以3次握手机制为基础。RTS-CTS包交换协议为IEEE820.11协议中的一种,而本文设计的协议与其相似,规定的信令数据包主要包含5种,具体见表1。2.6算法步骤基于信令协议,通过公共控制信道,小区用户能够传送控制信息,有利于利用效用函数,完成数据信道准确、高效的选择。本文所设计的算法具体步骤见图1,由图1可知,公共控制信道在这个算法实现过程中发挥重要作用,而算法设计的关键为信令协议。
3算法的仿真实现
3.1建模
算法仿真时,平台搭建利用OPNET网络仿真工具实现。OPNET网络仿真工具中,采用的仿真概念为离散事件驱动,一段程序执行由事件触发,执行过程中保证不改变系统时钟[5]。OPNET模拟现实系统时,以三层建模机制为基础,通过进程域、节点域及网络域完成建模,三个建模域之间的关系见图2认知无线电小区结构中,以300m为半径,其中,发射-接收对共40个,存在5个可用的数据信道;主用户小区半径为200m,信道4与信道5为其工作频率,产生的干扰会影响9对用户。小区内用户进行控制信息的传递时,均采用同一个公共控制信道,且主用户并不会影响该信道。小区所有用户初始信道分配状态采取随机方式设置,在相同初始状态上进行仿真,获得仿真结果。仿真算法过程中,初始信道随机分配后,并未均匀的专用系统中的信道,10个用户占用1信道、18个用户占用2信道、9个用户占用3信道、3个用户占用4信道、10个用户占用5信道。随机选取小区内各用户发射端的发射功率,结果显示,数值在2~5MW之间,仿真过程中,取值保持不变。之后运行建立的仿真平台,实现算法。
3.2算法实现
仿真平台利用OPNET网络仿真工具建立后,每对节点用户的过程模型上体现了主要算法功能的实现,单个认知无线电小区用户节点状态转换图见图3。算法初始状态为Init状态、算法处于用户发射端为Transmitter状态、算法处于用户接收端为Receiver状态、发射端与接收端的CST更新时采用Update状态、算法步骤第一步完成时为Decision状态、父进程与子进程交换信息时为CollectProHandle状态、执行算法期间的空间状态则为Idle状态。
3.3仿真结果与性能分析
执行算法期间,较多的改变了用户数据信道选用策略,算法执行的健壮性比较强,即使少数冲突发生,收敛趋势并未改变,算法周期执行250个也就是5s后,不再改变信道选择策略,纳什均衡状况达到,一致于博弈论;仿真5s后,潜在函数曲线趋于稳定,并最大限度的保持,适应于用户选择策略的改变状态,与博弈论数学特征相符合;仿真结束后,更多的用户SIR处于5~10dB之间,明显改善SIR水平。仿真结果充分表明,在较短时间内,本文所设计的算法即可收敛到纳什均衡状态,随着算法的收敛,逐步的提升潜在函数值,达到最大后基本不再改变,明显改善SIR水平,相同于博弈论的推导结果。
4结论
在博弈论的基础上,本文设计了认知无线电系统的频谱分配算法,经仿真结果可知,该算法能够将用户干扰水平最小化,并提升频谱资源的利用效率,但本文的研究还存在一定的局限性,仍需继续深入的研究。
参考文献
[1]崔军峰,刘恩亚.浅谈博弈论在认知无线电中的应用[J].中国无线电,2016(07):37~39+41.
[2]刘志强,余莉,韩方剑,等.应急通信系统中基于认知无线电的动态频谱分配技术方案[J].数字技术与应用,2016(02):50~52.
[3]倪秋芬.基于博弈论的认知无线电网络频谱分配研究[J].计算机与数字工程,2016(01):95~99.
[4]廉政,韩韧,张红.认知无线电频谱分配技术探秘[J].上海信息化,2015(08):59~62.
数学建模博弈论范文2
作者:,上海财经大学公共经济与管理学院助理教授、硕士生导师 上海 200433
[摘 要]本文对当代西方主流的政治学与公共管理学研究中常用到的“规范研究”的方法进行了简明的介绍。文章从规范研究的基本假设谈起,指出在最基本分析单位应当有内在一致性和应当是理性的假设条件下,规范研究大致可从效用理论和博弈论两个方向来进行,而究竟选取哪一个方向则取决于研究者关注的是单一主体在决策时的不同选择还是多个主体在寻求均衡路径中的互动。文章还探讨了规范研究的隐含假设,并勾勒了一个典型的规范研究的操作框架。文章最后探讨了对于规范研究不同模型的评价原则,及如何构造一个规范研究的模型。
[关键词]规范研究;模型;效用理论;博弈论
[中图分类号]D035 [文献标识码]A [文章编号]1006-0863(2014)02-0074-05
一、引言
在政治学与公共管理学的研究中,除了我们所熟知的量化研究和质性研究的方法之外,当代西方主流的学术期刊上还时常用到一种被称为规范研究 (formal theory) 的方法,规范研究在我国台湾学术界又被称为形式理论。[1] 规范研究或形式理论(以下皆称为规范研究)最大的特色就是用数理的模型来分析主体的行为。需要注意的是,本文关注的“规范研究”应当与另一个常用的“规范性理论”(normative theory)的概念区分开。“规范性理论”有一个对于世界应该如何的价值判断,在公共行政学中,规范性理论与实证研究是两条研究路径, 相对于以经验为基础,运用自然科学方法的实证研究,规范性理论是一种以价值问题为核心关注点、以解读和诠释文本为主要表现形式、通过严谨的逻辑构造来回答某个学科的基本问题乃至人生与世界的“大问题”的研究路径。[2]而“规范研究”则通常从不言自明的公理出发,按照严格的数理逻辑和设定规则推演出世界应该如何。这些推演和对于应然状态的判断再反过来用实证的方法进行研究。
虽然很多所谓的规范性理论的文章事实上是不严谨的学术研究,但这不影响规范性理论的文章在我国目前的公共行政学的文献中占据主流地位这一事实。[3][4]如本文将要介绍的“规范研究”在不少关于行政学研究方法的讨论中还不被单独列为一个类型。[5][6]然而有一些学者已经开始用符合“规范研究”要求的方式写作。如杨立华构建了一个知识困境的博弈模型来理解如何通过提高个体对博弈对方知识的尊重和认同,同时加强相互之间的知识交流和沟通,来走出由于知识困境而导致的知识成员之间的矛盾、冲突和对立。[7] 郭庆松讨论了如何通过分析劳动关系的博弈规则来确定劳动关系的博弈均衡,从而促进劳动关系利益主体效用函数的实现或预期收益的最大化。[8]
用数理模型来分析的好处显而易见。数学作为符号逻辑,理论上讲日常语言可以表达的一切都能转化成数学这种符号逻辑。而数学相对日常语言来说,其结构性、工具性、操作性更强,有利于对复杂现象的沟通,及对事物的控制。就易于沟通而言,比如,一个普通的中国人可能并不懂瑞典语,但如果有基本的数理训练的话,他可以很方便的理解瑞典人写的规范研究的模型。
最早的规范研究的著作见诸于经济学的文献中,如古诺(Cournot)[9] ,伯川德(Bertrand)[10] ,和埃奇沃思(Edgeworth)[11] 关于垄断定价和生产的论文。约翰・冯・诺伊曼(John von Neumann)和奥斯卡・摩根斯坦(Oskar Morgenstern)1944年在《博弈论和经济行为》一书中提出大部分经济问题都应当被当作是博弈来分析[12]。 而在政治学与公共管理学界,四本巨著可以被认为是规范研究的应用的奠基之作。它们是,安东尼・唐斯(Anthony Downs)的《民主的经济学理论》 [13],邓肯・布拉克(Duncan Black)的《委员会与选举理论》 [14],威廉・赖克(William H. Riker)的《政治联盟的理论》 [15] 及詹姆斯・布坎南(James Buchanan)与戈登・图洛克(Gordon Tullock)的《同意的计算――立宪民主的逻辑基础》 。[16] 大批后来的学者继续用规范研究的方法发展自己在各个方面的理论,如关于经济和政治的发展有曼瑟尔・奥尔森(Mancur Olson)的《国家的崛起与衰落》[17],关于官僚体系有威廉・尼斯卡宁(William Niskanen)的《官僚制与代议制政府》[18], 关于利益集团有奥尔森的《集体行动的逻辑》[19], 关于民主理论有赖克的《自由主义与民粹主义》[20], 关于合作行为的演变有罗伯特・阿克塞尔罗德(Robert Axelrod)的《自由主义与民粹主义》[21] 等。
二、规范研究的基本假设
我们知道,统计分析的核心是归纳,也就是说,从繁多的资料中整理出相关变量间系统的联系。而规范研究的核心是演绎,即从设定的模型出发,推演出主体在模型的约束条件下根据一定规则如何达到自己的目的。具体的规范研究有各自不同的模型,但所有的模型基本都遵循几个假设。其一,模型的最基本分析单位应当有内在一致性;其二,基本分析单位的行为应当是理性的。
是否具有内在一致性,主要指标是分析单位有没有自己的行为目标。同一个分析单位在同一个时段内,行为目标应当是确定的。假如在研究的时段内,这一个分析主体的目标是游离的,那么,这个主体就不应被作为规范模型的最基本单位。一个有内在一致性的分析单位(或主体)可以是一个人,或一个群体,或一个国家,甚至一个国家联盟。但这些单位未必任何时候都有内在一致性。比如,如果一个人既有利己性,又有利他性,那么我们必须严格设定我们的规范模型到底是在描述利己时,还是利他时的个人。这样,我们才能得到前后一致的模型。
如果分析主体为了达成既定目标而采取最优的方式,我们就认为这个分析主体是理性的。注意这里的理性有可能与我们通常理解的“理性”有一些出入。比如,二战末期日本军队采用了神风敢死队的方式与对手作战,我们通常会认为这是疯狂和“不理性”的作战方式,但如果我们把它理解为分析主体(神风敢死队队员)为达成既定目标(最快和最大限度的打击对手),那么在当时的限定条件下,同归于尽也许是他们能采取的最优选择。
三、规范研究的分类
常见的规范研究大致可分为两大类,一种是效用理论(utility theory),另一种是博弈论(game theory)。效用理论同时也是博弈论的基础,它用数学理论来表达决策过程。[22]对于一个理性的主体而言,他有趋利避害的本能。效用理论假设理性主体的偏好是不变的,它会首先设定理性主体的目标是什么,再指明主体的各种行动的后果是什么。因为主体对各种后果的偏好不同,我们可以用一组从小到大的数值来表明主体对各种后果到底有多么偏好,这些数值就是效用。把主体对各种后果的偏好与这些数值对应起来的公式就是效用函数。最后,各种后果的出现是有一定的概率的,主体会根据这些概率而冒着相应大小的风险来采取产生不同后果的行动。效用理论这时就能够给我们一个科学的决策指南。我们可以将所有不同行动的效用与所有不同行动的风险分别相乘,以得到每个行动的预期效用。理性的主体将会选择产生最大预期效用的行动。
但社会科学里最流行的规范研究的类型还当数是博弈论了。与其它的研究方法,如效用理论或统计分析相比,博弈论最大的特色是把分析主体的互动纳入到模型中。这样,主体间策略性的行为就能被模型所解释:我的选择是如何因为你的选择而改变,与此同时你的选择又是如何因为我的选择而改变;为了实现目标,因为我预期你会如此行动,所以我策略性地没有选择短期内的最优行为;而你由于预期到我不会采取短期最大化的行为,也策略性地选择与短期最大化不同的另一套应对;如此这般。这样,博弈论的构架本身自然而然的迫使我们直面决策行为的“内生性”,也就是说,决策不是一成不变,而是随着模型内其他变量的改变而不断变化。博弈论相信,当博弈终止,尘埃落定之时,理性的局中人将已经把所有可能的信息纳入到最终决策之中了。所以,最终各方的决策应当是均衡的,即,没有任何一方愿意改变现状,从而进入重新一轮的博弈。虽然,根据博弈论理论,理性主体的行为最终将落在均衡路径之内,但博弈论的框架要求我们不得不考虑在均衡路径之外的,理论上不会发生的决策与行为。因为这样才能帮助我们得到模型的最终解答。
除此之外,近些年规范研究也开始向新的方向发展,值得注意的有两个方向。第一,规范研究开始注意与实验的方法相结合。[23] 后面将会介绍,规范研究大多是从一些基本的假设出发开始推演的;但当假设并不契合实际时,结论将会偏差。对于在受控的环境下的受试者,研究人员可以用多种方式检验假设及结论的可靠性,并利用这些反馈修正自己的规范研究的模型。第二,政治学与公共管理学研究中一种新兴的网络分析法(network analysis),可以被视为是规范研究的一类分支。[24] 网络分析法明确地把主体放在一个社会关系的网络之中,主体的每一个社会关系都是网络中的一条线,主体本身是网络中的一个节点。关系的演变将依据研究者给定的假设与逻辑。由于任意一点都可能与多点相连,任意一点的决策将受到多种输入的影响,但这个决策也会反过来影响其他点,因此网络分析法充分的体现了社会内主体间的相互依赖(interdependency),对理解许多政治与经济问题有重要意义。
表1 规范研究分类
(一)著名的博弈论模型
最著名的博弈论模型恐怕非“囚徒困境”莫属了。最原始的囚徒困境模型是两个囚犯被隔离讯问,招认就能减低刑期,不招会被罚,并假设只要一人招认,检察官就有足够证据能处罚两个人。当两人都招时,两人都会中度受罚,但当两人都不招,则检察官只能轻罚两人。重点在于,如果只有其中一方招认,招的那一方就能获释,不招者则得到重度惩罚。每个人都会去想对方到底招不招,然后发现,不论对方招不招,我自己招认的好处都大于不招,所以两人基于理性,就各自发展出主导策略,即都选择招认,因此两人都受到中度惩罚。
表2 囚徒困境
注:括号内是两人的所得,越大的数字表明越大的所得。括号内左边的数字是囚犯一的所得,右边是囚犯二的所得。但假如囚徒困境的情形要重复不断地进行,最理性的方式则是大家形成合作的默契,都不招认,因此都只受到轻度惩罚。假如默契不形成,两人每次都受到中度惩罚,显然不理性。不过,要是博弈只有一轮,基于不信任,大家就都会诉诸短期理性,宁可受到中度惩罚。囚徒困境模型证明时间是重要的因素,即博弈玩一次和玩无限次的结局是不一样的。如果是无限次,两人就会合作,因为考虑到博弈的次数n乘上两人合作的利得,远大于n乘上两人不合作的利得,所以两个人终究会学习合作。囚徒困境模型的目的,是在说明人通过学习,即使基于自利而在短期内做出不利于自己的决定,但长期里最终会回归最理性的方式,修正自己的行为选择。[25][26]
与囚徒困境一样有名的另一个规范研究的模型是懦夫游戏。在这个模型的情境中,两人开车迎面撞来,看谁是怕死先闪开的一方就算输。和囚徒困境最大的不同在于,当双方都不合作(即不闪开)时,得到的结局对双方都是最凄惨的;而在囚徒困境中,两人都不合作时,得到的结果对双方都只是次凄惨的(即中度惩罚),所以两囚才都有可能选择招认。
表3 懦夫游戏
注:括号内是两人的所得,越大的数字表明越大的所得。括号内左边的数字是主体一的所得,右边是主体二的所得。在博弈论的建模过程中,每一种决策的效用值究竟有多大,其实并不重要,真正重要的是每一种决策效用相对其他决策效用的大小。例如在刚刚提到的囚徒困境与懦夫游戏这两个模型中,如果我们改变其中一个模型中效用值的相对大小,我们甚至可以把这个模型转换成另一个模型。
(二)博弈论的弱点
尽管博弈论是规范研究中非常有力的一个工具,但正如任何其他工具一样,博弈论也有自己的局限性。具体来讲,有如下几点。[27]
1.博弈论通常假设博弈中的行为主体有相同的期待,即,每个人都知道自己及他人的所有可能的策略,并以此为基础来决定自己的应对策略。但当相同期待的假设不能被满足时,博弈该如何进行呢?一个办法是允许行为主体在不断博弈中理性的学习:从每轮博弈中,每个主体的期待通过观察其他人的应对而得到更新,更新后的期待成为下一轮博弈的基础。
2.许多博弈论的模型会产生多重均衡点,而无论我们用何种解决办法,多重均衡的结果都没法消除。多重均衡意味着博弈的结果并不唯一,如何从多个均衡中选取我们需要的结果呢?博弈论中的“无名氏定理”可以帮助我们更好地理解多重均衡的现象,并给出选取唯一解的理由。
3.博弈论通常假设相同的知识。字面上的理解自然是行为主体们都掌握同样多的信息,这意味着除了客观事实的信息外,主体们还知道其他的主体也知道这些客观事实,主体们知道所有的主体们都知道所有人都有相同的期待,主体们知道所有人都是理性的,等等。在有限信息博弈论模型中,相同的知识这个假设可以被放松,即一些主体比另一些主体有更多的信息,但信息不对称这个“信息”却是行为主体们都知道的。
4.博弈论通常会假设行为主体是理性的,可另外一个可能的假设是“有限理性”,即在追求特定结果的过程中主体的推演能力是有限的。关于有限理性,文献中有三类可能的解决办法。(1)每个行为主体的策略都基于对手所有过往行动出现的频率,理性是有限的因为主体只需要记住所有的历史;(2)每个行为主体的策略是基于“有限自动回复”,主体没法记住所有历史,他的行动由固定的前几期的历史所决定;(3)不同主体从各自的有限知识与分析能力出发得出不同的策略,这些不同策略在同一个平台下相互竞争、优胜劣汰,最好的策略自然会最终胜出。
四、规范研究的隐含假设
在用效用理论或博弈论来建立模型进行规范研究之前,研究者通常需要接受一些隐含的假设。第一,假设参与博弈的主体之间没有任何情感联系。这保证了各主体的行为是由纯粹利益的计算而决定的,从而使不可观测的因素不会改变建模者的结论。比如,在囚徒困境中,假如两个囚徒是父子关系,那么我们对于即使只有一次博弈的结果,也极不可能得到两人相互背叛的结论。这就是说,模型本身没有考虑的非直接的利益因素改变了模型的结果。第二,假设主体是利己而非利他的。这与之前提到的主体一致性相呼应,保证了建模者可以相对容易的推演出主体的效用函数。然而,这是对现实的极大简化,比如,在公车上让座是我们常见的利他行为,但如果用规范研究的模型来解释这一点的话,往往会从建模本身的需要出发,把利他行为解释成为了更好达到自己目标的利己行为。
五、规范研究的操作框架
在这些明显的或隐含的假设的基础上,我们可以勾勒出一个典型的规范研究的操作框架。
第一步,研究者应当提出要研究的问题。这是所有研究必须跨出的第一步,但通常也是最为困难的一步。好的开始是成功的一半,好的问题正是好的开始的核心。虽然也有灵光一闪的情形出现,但绝大多数的情况下,提出好的问题要在熟悉本领域文献,广泛阅读其他跨领域的材料,及对社会、政治、经济、公共政策等众多领域内规律性的现象保持敏感并不断思考的基础上形成的。
第二步,根据提出的问题以及研究者本身的训练和偏好,研究者应当决定到底用效用理论还是用博弈论来研究这个问题。如前所述,博弈论的精髓在于研究多主体间互动中的策略。因此,如果我们的研究对象是单一主体如政府,研究目标是这个单一主体应如何在给定的选项间选择,例如政府应打破还是维持垄断,那么,这个研究目的决定了纯粹的效用理论可能是更适合的方法。所以,应当是研究问题决定了采用何种研究方法,而不是相反。
第三步,在确定了研究问题和适当的研究方法后,研究者要考虑在自己的模型中要采用哪些假设。因为归根到底,大部分规范研究的结论在其假设被设定的那一刻起,其实就已经确定了。规范研究的过程是用一套符号逻辑的语言,清晰地告诉读者怎样可以从假设推导至结论。这样,规范研究的每一步都是符合逻辑,并经得起后来研究者的检验的,后来的研究者可以很容易地发现模型推演中可能的错误。
最好的假设应当是不言自明的,被绝大多数人和学术界所承认的。但通常仅有这些假设不足以得出研究想要得出的结论,因此,更多的假设不可避免。研究者要使用的新假设应当是较少争议的。这些假设最好应该有现实的经验作为依据,并有已有的文献曾采用过相同或类似的假设。即便如此,研究者还是应当用较大的篇幅来说明自己为什么要用这些假设,及这些假设为什么是合理的。
表4 规范研究常用的假设
第四步,自然是推演的过程。这通常是一个模型最显眼的部分,虽然,对于有经验的建模者,之前的确定问题(并确立变量)和设立假设,恐怕才是最伤脑筋和凸显功力的步骤。社会科学规范模型的推演用到最多的数学知识包括代数、微积分和概率论等。
六、如何评价不同的规范研究的模型
那么,当一个规范研究的模型被构建出来以后,我们如何把它和另一个规范研究的模型作比较,并评价孰优孰劣呢?像任何社会科学的模型那样,我们首先的评价指标是这个模型是否能更好的帮助我们理解和解释我们关心的问题。对于某个问题,好的模型或者能把我们久已认为本该如此的观念用数理化、逻辑化的语言在一个严谨的框架内清晰的表达出来;或者能够在简单无争议的假设的基础上,推演出反直觉的结论,从而弥补单纯靠观测、归纳的研究方法的不足。比如,斯托尔珀和萨缪尔森在公认的比较优势理论的基础上,推导出国际贸易使得一个国家里相对蕴含更丰富的生产要素获利更多的结论。[28] 这个结论与我们的一般直觉相反。一般的直觉告诉我们,稀缺的东西才能获取高价,充足供给的东西价格应当下跌才对。
规范研究的模型还应能自圆其说,也就是说,从假设到结论的推演是按照逻辑一步步进行的,从而保证读者对于每一步的推演都是信服的。一个好的规范研究的模型还应当对多种情境有普适性。这个模型看似是在某一种很特殊的情境下分析主体的行为,但由于规范研究的特征,只要模型的结构和假设能够保持,我们完全可以替代入不同的主体,从而用同样的模型来研究不同的问题。比如,博弈论中的囚徒困境模型,完全可以超越“囚徒”的选择这个最初的情境,而来分析个人、企业、群体、或国家在类似囚徒困境的结构中是如何用与囚徒类似的逻辑来理性的决策的。事实上,国际关系研究中经常用到囚徒困境模型来分析国家间战争与和平的考量。又比如,政治学分析中常见的中间选民理论,最初是被用来解释为什么美国的选举候选人有向政党意识形态偏中间的选民们靠拢的倾向。但随着这个理论的广为人知,美国政治以外的学者也开始用中间选民理论来解释其他领域的热门问题,如福利国家为什么会发生,或者为什么威权政体可能会转变为民主政体,等等。
规范研究与社会科学的其他研究方法一样,也应当尽量追求简洁有力。这就是指一个模型应当用尽可能少的变量或假设来解释尽可能多的变化。如果一个假设不能带来更大的解释力,那么这个假设就不应当被包括在模型中。[29]
七、如何构造规范研究的模型
作为本文的结尾,我们来探讨一下该如何构造一个规范研究的模型。第一种办法,是自建一个模型。在这里,最重要的原则是简单、简单、再简单。建模从写下主体们一系列的选择开始:有什么选择;该什么顺序;选择时有什么信息;选择会产生什么后果。然后,考虑主体们对这些后果的可能的偏好。接着,就可以写下决策树并算出这个模型的结果了。
第二种办法,是修改一个现有的模型,比如改变现有模型的某个假设,或取舍现有模型的某(几)个变量。从工作量上来说,这通常要比构建一个全新的模型要容易些。但同样的,我们还是在修改模型的过程中需要简单、简单、再简单。如果普通的方法可以解决问题,就没有必要用更复杂的方法。
[参考文献]
[References]
[1][25]石之瑜. 政治科学中形式理论的运用与瓶颈――从赛局理论谈起[J].东吴政治学报,2003(17).
Shih Chih-yu. The Epistemological Limit of Formal Theory in Political Science: Game Theory Revisited. Soochow Journal of Political Science, 2003(17).
[2][4]颜昌武,牛美丽. 公共行政学中的规范研究[J]. 公共行政评论,2009(1).
Yan Changwu, Niu Meili. The Normative Research in Public Administration. Journal of Public Administration, 2009(1).
[3][5]何艳玲. 问题与方法:近十年来中国行政学研究评估(1995―2005)[J].政治学研究, 2007(1).
He Yanling. Questions and Methods: Evaluation of Chinese Public Administration in the Past 10 years. Cass Journal of Political Science, 2007(1).
[4][6]刘晓峰,刘祖云. 我国行政学质性和量性研究方法的评价与反思:基于2006-2008年部分期刊文章的样本分析[J].甘肃行政学院学报, 2010(3).
Liu Xiaofeng Liu Zuyun. Evaluation and Reflection on the Chinese Public Administration Research Methods. The Journal of Gansu Administration Institut, 2010(3).
[7]杨立华. 知识困境及其解决方式:以环境治理为例的博弈模型构建[J].中国行政管理,2010(10).
Yang Lihua. The Knowledge Dilemma and its Resolution Methods: Game Theoretical Models of Environmental Governance. Chinese Public Administration, 2010(10).
[8]郭庆松. 论劳动关系博弈中的政府角色[J].中国行政管理,2009(7).
Guo Qingsong. A Study of Government Role on the Game of Labor Relations. Chinese Public Administration, 2009(7).
[9]Antoine Augustin Cournot,Irving Fisher. Researches into the Mathematical Principles of the Theory of Wealth. Macmillan, 1838.
[10]Joseph Bertrand. Théorie mathématique de la richesse sociale’. Journal des Savants, 1883:499508.
[11]Francis Ysidro Edgeworth. La teoria pura del monopolio. Giornale Degli Economisti.1897: 1331.
[12]John von Neumann, Oskar Morgenstern. Theory of Games and Economic Behavior. Princeton University Press, 1944.
[13]Anthony Downs. An Economic Theory of Democracy. New York: Harper & Row, 1957.
[14]Duncan Black. Theory of Committees and Elections. Cambridge: Cambridge University Press, 1958.
[15]William H. Riker. The Theory of Political Coalitions. New Haven: Yale University Press,1962.
[16]James Buchanan, Gordon Tullock. The Calculus of Consent. Ann Arbor: University of Michigan Press, 1962.
[17]Mancur Olson. The Rise and Decline of Nations. New Haven, CT: Yale University Press, 1982.
[18]William Niskanen. Bureaucracy and Representative Government. Chicago: Aldine, 1971.
[19]Mancur Olson. The Logic of Collective Action. Cambridge, MA: Harvard University Press, 1968.
[20][22]William H. Riker. Liberalism Against Populism. San Francisco: W. Freeman, 1983.
[21]Robert Axelrod. The Evolution of Cooperation. New York: Basic Books, 1984.
[23]James D. Morrow. Game Theory for Political Scientists. Princeton: Princeton University Press, 1994.
[24]Rose McDermott. Experimental Methods in Political Science. Annual Review of Political Science, 2002. 5:3161.
[26]Michael D. Ward, Katherine Stovel, Audrey Sacks. Network Analysis and Political Science. Annual Review of Political Science, 2011. 14:245-64.
[27]David Kreps. Game Theory and Economic Modelling. New York: Oxford University Press. 1990.
[28]James E. Alt, Kenneth A. Shepsle. Perspectives on Positive Political Economy. New York: Cambridge University Press, 1990.
[29]Wolfgang F. Stolper, Paul A. Samuelson. Protection and Real Wages. The Review of Economic Studies, 1941. 9 (1).
The Methodology of Formal Theory:A Brief Introduction and its Application in Public Administration
Zhou Qiang
[Abstract]This article is a brief introduction to the methodology of formal theory, which is common in contemporary research in fields like political science, economics, and public administration. We start from discussions of the basic assumptions of formal theory, namely, internal consistency and rationality, and point out that formal theory research can be conducted using either utility theory or game theory. The choice of a specific approach depends on whether the research in question focuses on the different options facing the decision-maker in his decision making process, or the interactions between multiple players in pursuit of equilibrium. Furthermore, we discuss the implicit assumptions in formal theory, give a typical operational framework for a formal theory research, and enumerate some criteria for judging the quality of a formal theory model. We conclude by listing the ways to construct a formal theory model.
数学建模博弈论范文3
关键词:GMP实施;药品生产企业;食药监管部门;博弈论
GMP,即《药品生产质量管理规范(2010年修订)》。它是一把标尺,既规范药品生产和质量管理,同时也衡量药品生产企业的技术水平[1]。按国食药监安[2011]101号文件要求,所有药品生产企业均应在2015年12月31日前达到《药品生产质量管理规范(2010年修订)》要求。GMP认证后,GMP能否持续稳定实施才是关键,才能有效控制药品的安全与质量。
药品飞行检查,是指食品药品监督管理部门针对药品研制、生产、经营、使用等环节开展的不预先告知的监督检查。近年来,在国家食品药品监督管理总局(以下简称CFDA)飞行检查中,被检药品生产企业GMP实施情况不容乐观,更有甚者GMP证书被收回,仅2016年全国收回药品GMP证书就高达171张[2]。
博弈论,是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡性[3]。1928年,冯・诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生。博弈论在金融学、证券学、生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。本文将利用博弈论研究药品生产企业和食品药品监督管理部门(以下简称食药监管部门)的博弈,得出影响药品生产企业GMP持续稳定实施的众多相关因素,并分析出关键因素,从而促进药品生产企业持续稳定实施GMP。
1 研究方法
以博弈论为基础、为依托,借助其他科学方法分析研究药品生产企业持续稳定实施GMP的现状及相关影响因素。
1.1 调查法
通过查阅文献、收集资料发现我国现有药品生产企业数量为8702[4]。2016年全国收回药品GMP证书数量为171[2],约占总量的1.97%;跟踪检查后发回药品GMP证书数量为104[2],即未发回药品GMP证书数量为67,约占总量的0.77%。这些数据既给药品生产企业敲响了警钟,也敦促各级食药监管部门加强对辖区药品生产企业的监管力度,尤其是相较于其他省份数量偏大的河北、吉林、安徽、广西四省。
1.2 数学建模法
由于博弈论可以比较深刻地反映出各参与方利益的冲突与一致问题, 以及参与方的决策过程, 所以通常被用做政策制定和政策分析的有力工具。为了分析我国的GMP持续稳定实施, 基于泽尔腾(1995)“小偷与守卫”[5-6]博弈模型,建立一个完全信息静态博弈模型来讨论博弈双方的决策。
1.2.1 模型假设
GMP持续稳定实施相关的博弈模型的基本假设有以下方面。
(1)理性人假设
假定博弈主体为我国食药监管部门与药品生产企业,博弈主体均符合理性的“经济人”假设。药品生产企业和食药监管部门都会在博弈过程中谋求自身利益最大化。对于药品生产企业来说,以较少的成本支出和良好的企业形象(即无形资产)收获丰厚的企业利润是其追求的目标;而对于食药监管部门来说,依法执法、科学监管、为人民服务,国家稳定和谐,国民用药安全与质量得到保证,是其追求的目恕
(2)非合作博弈假设
为了利于分析,假定药品生产企业是为了追求利润最大化而不持续稳定实施GMP,即GMP实施存在缺陷,属于违法行为;食药监管部门为了追求国家稳定和谐、提高国民用药安全与质量,随时准备对群众举报、投诉的药品生产企业的违法行为进行查处。药品生产企业和食药监管部门的关系类似于“监管模型”中的小偷和守卫的关系,设定这两者之间不存在“共谋”“串通”的行为,将其视为非合作博弈来考虑。
(3)完全信息静态假设
完全信息博弈指参与者对所有参与者的策略空间及策略组合下的支付有充分了解;静态博弈指参与者同时采取行动,或者尽管有先后顺序,但后行动者不知道先行动者的策略。就GMP监管与实施决策双方的行动从逻辑顺序看,药品生产企业决策在先,食药监管部门决策在后。对于药品生产企业来说,只要不想持续稳定实施GMP,就不存在技术障碍;对于食药监管部门来说,假设其具有完全检查能力,即只要检查就可以查出药品生产企业实施GMP是否持续稳定,是否存在违法行为。因此,可以将该博弈设定为完全信息静态博弈模型。
(4)策略选择的假定
博弈双方均有两种策略选择:药品生产企业可以选择持续稳定实施GMP和不持续稳定实施GMP,食药监管部门可以选择检查和不检查。
1.2.2 决策组合分析
通过博弈论相关方法可得到药品生产企业和食药监管部门的决策组合。
(1)组合一
食药监管部门检查,药品生产企业不持续稳定实施GMP时,假设食药监管部门因对群众的举报、投诉积极检查而提高社会稳定性、增进社会和谐、保障人民健康的总和为B,其单次检查支出的包括人力、物力、财力在内的所有成本为C;药品生产企业因违法被查处所受惩处为A。故而食药监管部门的收益为B-C,药品生产企业收益为-A。
(2)组合二
食药监管部门检查,药品生产企业持续稳定实施GMP时,对于食药监管部门来说,其收益仍为B-C;对药品生产企业而言,相当于接受例行检查,无损亦无收,因此收益为0。
数学建模博弈论范文4
现代工程科技要求工科大学生应具备扎实的数学基础理论和数学应用能力,而目前工科大学生数学学习常常呈现“学而无趣”“学而无用”的现象,这种现象折射出的教学问题为:理论与实践脱节,缺少数学创新实践环节,缺乏数学人文素养培养。
为了将数学基础理论、数学创新实践和数学人文素养三者融合起来贯穿于工科大学生数学创新实践能力培养过程中,我们设计并实施了系统科学的解决方案:建设优质的实践平台(基础)构建科学的培养模式(构架)建立优秀的教学团队(实施)提高大学生数学创新实践能力(效果)。在实施方案指导下,经过近20年的探索与实践,成效显著。此成果荣获2014年高等教育类国家级教学成果一等奖。 一、创建优质的实践平台,完善教学资源结构,优化创新人才个性成长环境
1. 建立大学生数学创新实践基地和大学生数学实验室
为了培养工科大学生数学创新实践能力,我校在友谊校区和长安校区分别创建了多功能大学生数学创新实践基地。基地是集“个性化教学、自主学习、数学实验、创新研究、数学建模竞赛”等为一体的创新实践平台,为大学数学主干课程教学改革以及培养跨学科创新人才提供良好的条件与环境。大学生数学创新实践基地可以同时容纳300名学生上机实习,配备了一流的设施,制定了科学的管理制度,面向学生全天候开放。学生根据个人的学习、实践、创新、研究等需求,有效使用基地的所有资源,充分发挥学生自主学习的主观能动性,提升了教学资源利用率。
同时,我们又建立了两个数学实验室:数学建模与科学计算实验室,统计与数据模拟实验室。这两个实验室配备了高性能计算机和多种数学计算和优化的专业软件。实验室承担了高性能计算和仿真模拟等任务,为学生深化数学创新实践提供了保障。
2. 编写出版注重培养数学创新实践能力的系列教材
该系列教材坚持以问题驱动为主线,以大学生已有知识为基础,以培养实践能力为目标,内容简单有趣,非常适合学生学习。同时,该系列教材还能够满足多个层面学生需求。其中,《实用数学建模与软件应用》、《基于MATLAB和LINGO的数学实验》适用于数学建模和数学实验课程教学;《数学建模简明教程》适合数学建模专题讲座;《数学建模竞赛优秀论文精选与点评》以及《美国大学生数学建模竞赛赛题解析与研究》适合数学建模竞赛赛前培训使用;《线性代数》、《高等数学》、《概率论与数理统计》、《随机数学基础》等教材增加了数学建模与数学实验素材,架起了大学数学主干课程与数学实践的桥梁。
3. 构建优质网络教学资源,丰富大学生自主学习内容
为了满足学生的学习兴趣,我们建立了“数学建模”国家级精品课程网站,“高等数学”、“线性代数”、“概率论与数理统计”以及“概率论基础”等4门省级精品课程网站,同时创建了西北工业大学“数学建模竞赛”网站。这5个课程网站和1个竞赛网站为学生提供了丰富的学习资源,使之成为开展第二课堂学习的基地。 二、以“基础为本,实践为魂,素养为翼”为理念,构建“基础―实践―素养”融合发展的人才培养模式
我们在课堂教学中,以“深化知识理解,培养创新意识和创新思想”为本;在实践教学中,以“知识融于实践,实践检验知识”为魂;在文化熏陶方面,以“数学文化熏陶推动知识学习和实践应用”为翼,以实现“学而有趣,学而有用,学而会用”。
“基础―实践―素养”融合发展的“二三三”培养模式是由“两级课程”(大学数学主干课程和数学建模相关课程)、“三类实践”(数学实验、数模竞赛、创新项目)以及“三重熏陶”(数学讲坛、数学沙龙、数模讲座与论坛)构成,其培养过程概述为“加深数学基础理论?强化数学创新实践?提升数学人文素养”,三者之间相互融合、相互促进,为学生后续发展奠定良好基础。在践行“二三三”培养模式过程中,扎实的数学基础理论支撑大学生数学创新实践,数学创新实践深化大学生对基础知识的理解,提升学生的学习兴趣。基础理论学习涉及数学历史、文化和思想,以培育学生的数学人文素养;数学创新实践丰富学生数学人文素养内涵。数学人文素养提升学生参与创新实践的积极性;数学人文素养激发基础理论学习兴趣,扩充知识面。“基础―实践―素养”相互融合,在人才基础培养上具有科学性和系统性。
1. 将数学创新实践能力培养贯穿于“两级课程”教学全过程,提高教学质量
首先,开展问题驱动式的教学模式改革,将数学建模思想融入大学数学主干课程,提升学生的数学建模能力和数学应用能力。
问题驱动式的教学模式强调人本主义理念,发挥教师的主导作用和学生的主体作用。教学过程引导学生思维,激发学生主动学习的潜质,全面提升其抽象思维、逻辑推理、数学建模和数学应用等能力。
一是以建模的方法讲授数学定义和定理。通过直观分析、抽象思维、逻辑推导等过程,建立起数学定义、数学定理与自然现象和规律之间的桥梁,这个桥梁就是数学建模。通过数学建模的方法,可以讲授定义的形成过程以及定理的内在意义,既可以提高学生的建模能力,也将抽象概念形象化。
二是将往届的数学建模竞赛试题和课堂内容相结合。在教学过程中,根据讲授的课程内容,解答往届的数学建模竞赛试题,以提高学生数学建模能力和数学应用能力。
三是将科学研究中的问题与课堂教学相结合,教师将科学研究中的一些简单建模问题与课程内容相结合,提升学生创新实践能力。
四是开设分层次系列数学建模课程,对不同的教学对象选择不同的教学内容,实现授课内容与授课对象相统一。例如,为部分院系学生开设数学建模必修课,为其他院系学生开设数学建模选修课,为参加竞赛学生开设培训课,为参加创新项目的学生开设讨论课,邀请校内校外专家举办讲座,为有兴趣的学生提供网络资源,等等。通过分层次教学,满足了各个层面学生对数学建模知识的需求。
五是依据教学目的、效果、对象选择教学手段,广泛采用网络资源、多媒体课件、一对一讨论、集体讨论、网络答疑等教学手段,提高教学效果。同时,加强课堂教学与课外实践有机结合。在完成规定的课堂教学任务前提下,为了巩固和提高课堂效果,我们又设置了适量的课外实践,主要包括课外数学建模创新项目、各级各类竞赛、数学实验等内容。
2. 开展系列大学生数学建模竞赛与培训,为培养高素质、复合型、跨学科创新拔尖人才奠定基础
我们建立了完善的校级数学建模竞赛体制,保证80%以上的大学生在校期间至少参加一次数学建模竞赛。这不仅提高了大学生应用数学理论知识解决实际问题的能力,同时也是检验数学课程教学改革效果的良好手段。参赛学生从2000年的240余人增加到2014年的4800余人,累计参赛学生达30000余人,是全国校级数学建模竞赛参赛规模最大的学校之一。
我们建立了完善的全国大学生和美国(国际)大学生数学建模竞赛培训机制,包括队员选拔、课程培训、赛题培训、专项培训、专题讨论、强化训练、分组协作等手段。经过这样的培训,西北工业大学在各级各类数学建模竞赛中成绩斐然。
3. 开展数学实验和系列大学生自主创新项目,培养学生的科学研究能力
为了培养学生的科学研究能力,我们以培养知识理解、知识应用、数学计算、创新和实践为指导,设计了8个基础实验、4个选做实验。通过基础实验,调动了学生主动学习和应用数学分析解决问题的积极性,使其掌握常用的工程数学的应用方法。选做实验立足于对各知识点的理解和应用,让学生学会怎样运用所学知识,提取问题的数学结构,进行创造性思维,更好地掌握和应用所学各种数学工具、软件工具的能力。
近两年来,共开设系列大创项目113项,参与学生400余人。通过自选级、校级、国家级三个层次大学生数学创新项目,学生的科学研究能力得到了显著提升。
4. 举办“三重熏陶”,丰富教学内涵
我们通过延伸课堂教学,举办数学讲坛、数学沙龙、数学建模讲座和论坛,开阔学生视野,提升学生对数学思想、历史、文化、美学、应用的认识,实现了课堂教学与人文素养培养无缝链接,丰富了数学教学内涵。
例如,在数学论坛上,中国工程院院士崔俊芝做过“从科学计算到数字工程――漫谈数学与交叉科学”,“杰青”王瑞武做过“合作的演化――数学在生命科学中应用的一个问题”,美国密西根大学J. Liu做过“博弈论与诺贝尔经济学奖”等报告。另外,也举办过“几个著名的数学难题及钱学森的科学人生”、“科学巨匠――赫伯特・西蒙和冯・诺依曼”等数学沙龙。通过这些活动,营造了数学文化氛围,增强了学生数学文化修养,扩大了学生的数学知识面,提升了学生的数学建模兴趣和能力。 三、以“能站讲台,能教实践,能开论坛,能做科研”为标准,构建一支全能型专业化师资队伍
数学建模博弈论范文5
以“模块-综合”架构构建电力、能源类电子系列课程体系
博弈论在高校课堂教学管理中的应用
动物学学科
厕蝇科昆虫起源、演化及世界分布格局的探究
多面体平图的4着色方法
利率受随机因子影响的投资组合问题
一类离散时间时滞线性切换系统的鲁棒H_∞控制
五面体平图中的生成树的构造与计数
高校办公室人员基本素质的综合评判方法
两种抽样方式下样本均值的数字特征及其意义
一类具有无限时滞Volterra型积微分方程周期解的存在性(英文)
带有随机因子的最优投资和消费问题(英文)
定积分计算中的若干技巧
基于因子-主成分回归分析的股价技术分析研究
基于R_0-蕴涵伴随对的重心法模糊系统及其概率表示理论
小密度处耦合常数对原子核基态性质的影响
Ni-Mn-Sb合金的可逆高温磁卡效应
硅对钢/铝轧制复合界面化合物抑制效应的研究
水在金属镁表面吸附的第一原理研究
超声波透射法检测钻孔灌注桩技术
基于GPRS变电站RTU监控系统设计
电动汽车用电机及控制器试验分析
高密度储氢材料的研究进展
纳米科技的发展与应用
一种降低XML文档更新代价的扩展Dewey编码方案
基于SOA的数据挖掘服务整合研究与设计
基于HSI空间和纹理的频谱度量的印鉴识别
高校学生成绩预警系统的改进研
基于Schema文档的XML文档验证系统的设计
使用SQL Server管理应用程序服务数据
一种网络认证计费的设计与实现
语料库在茶典籍英译中的实例应用
病房通风CFD模拟及其方案优化
影响铝栅板上铅镀层孔隙率的因素探究
酵母菌单细胞电化学行为的循环伏安法及电化学交流阻抗研究
UV-B和Cd胁迫对大豆细胞壁降解酶活性的影响
高粱微卫星两种PAGE银染方法的比较
哺乳动物的低代谢及其应用
大麝鼩能量代谢和体温调节特征
蟋蟀嗅觉的联合学习与记忆能力研究
区域城市化与生态环境协调发展分析——以福建省为例
基于农用地分等成果的耕地需求量预测探析——以松溪县为例
再释组织公民行为角色自定义——基于社会、组织与个人影响因素的讨论
法国与德国国有企业改革比较研究
辽宁产业结构调整的发展趋势研究
辽宁省农村公共服务的现状及对策分析
中西古典建筑审美比较
目前建设工程合同管理中存在的问题与对策
在基础析化学教学中的数学建模
英国能源教育课程特点评
数学建模博弈论范文6
建筑业是国民经济的支柱产业之建筑安全
生产既是其持续健康发展的必要条件,也是人民安居乐业和社会安定的重要支撑。但是多年来,建筑安全生产基础薄弱,事故易发多发。除了受建筑企业自身生产力水平和从业人员素质等因素的制约和影响外,作为外部约束力量的政府部门的监管也是关键因素。上海“11?15”特大火灾等建筑安全事故都警示建筑生产中安全监管的重要性。但是,由于建筑工程涉及到各参与方利益,安全监管常不能有效开展。一方面建筑企业受利益驱使,可能在事故风险与经济利益间进行博弈;另一方面地方监管部门为了追求更多利益,也可能与企业合谋,从而影响安全监管的执行。为了保证建筑安全生产,必须建立科学的机制约束监管部门和建筑企业的行为。
关于如何建立科学的安全监管机制,国内外学者采用不同的方法进行了研究。IainMacLean通过案例分析了由执行安全监管到放松监管安全状况的变化;ChinShanLu等0采用实证研究的方法探讨了安全监管对生产效率的影响;李志强H对我国交通建设工程安全监管现状及模式进行探讨,提出全过程动态循环安全监管模式的新思路。事实上,建筑工程的安全状况往往是建筑企业和监管部门之间一系列博弈的结果,博弈论亦是研究安全生产中监管部门与建筑企业行为的有效方法。但是,目前仅有少数学者从博弈的视角研究建筑安全监管,如:申玲等建立静态博弈模型分析监管部门需要关注的影响承包商安全生产投入的因素;曹冬平等从博弈角度分析得出监管部门的处罚力度、安全检查成本和管理效率对建筑企业安全施工有较大影响;张飞涟等B]则建立博弈模型确定监察机关对施工单位进行抽检的比例及处罚力度。这些研究多是运用经典博弈理论来分析建筑安全监管行为。经典博弈理论假设博弈双方为完全理性、从静态角度进行研究,这与实际情况存在差别。因此,有待于采用更科学的理论和方法研究建筑安全监管问题。现实中,监管博弈双方往往不断地获取对方或者外界的信息来改变自己的策略。演化博弈理论从系统论出发,将群体行为的调整过程看作一个动态系统,以有限理性为基础,突破经典博弈论理性假设的局限,强调动态的均衡M。因此,用演化博弈理论对建筑安全监管问题进行分析,将更接近实际情况。然而,演化博弈中的演化稳定策略(ESS,EvolutionarilyStableStrategy)只能描述系统的局部动态性质,不能表现均衡与动态选择过程之间的关系。
系统动力学(SD,SystemDynamics)是研究复杂系统中信息反馈行为的有效仿真方法,它关注系统的动态变化与因果影响,能够在非完备信息状态下分析求解复杂问题。SD为研究不完全信息条件下演化博弈的复杂动态演化过程,提供了一种有效的辅助手段。因此,与已有的研究不同,笔者将把演化博弈与系统动力学相结合,考虑信息不确定的实际情况,对建筑安全监管中的动态博弈进行演化均衡稳定性分析,揭示博弈双方的动态特性,通过建立相应的SD模型和仿真更好地剖析建筑安全的波动规律,为科学的安全监管决策提供依据。
1建筑安全监管的演化博弈模型
1.1模型假设
演化博弈论认为,有限理性的经济主体无法准确知道自己所处的利害状态,而是通过最有利的策略逐渐模仿下去,最终达到一种均衡状态&2。建筑安全监管主要涉及到政府监管部门和建筑企业2个有限理性的局中人。在建筑安全监管中,监管部门是否监管、建筑企业是否按安全规程运作是一个动态博弈。在有限理性的前提下,建筑企业考虑利益所得及政府的监管惩罚,可以选择的策略假设为小={执行安全规程,不执行安全规程};政府监管部门为确保生命财产安全并考虑监管成本可选择的策略假设为皂={严格监管,不监管}。
假设建筑企业执行安全规程时的经营收益为Na,经监管部门检查为安全施工且无事故发生时,会得到一定的奖励Ra;不执行安全规程时,可节省安全投入G,但被监管部门检查出来后将受到惩罚Pa。
假设监管部门的日常收入(一般指上级的拨款等)为Nb,进行安全施工监管的成本为Cb。考虑到监管部门检查时,如果建筑企业采取不执行安全规程施工的策略,就会采用各种手段来掩盖,这时监管部门会有一定的失误概率(即把不安全施工认定为安全施工的概率)e,监管部门失误时,会受到惩罚(上级部门的直接经济惩罚或失去公众信任的间接声誉损失)Pb,监管部门检查出不安全施工项目时,由于避免了安全事故的发生,会得到一定的奖励(上级部门的直接经济奖励或公众信任提升的间接收益)Rb。监管部门监管不力时,如果建筑企业采取不安全施工且发生安全事故,监管部门也将受到惩罚Pb。
1.2模型求解
根据上述假设,建立演化博弈模型的支付矩阵见表1。假设建筑企业采取不执行安全规程策略的比例为采取执行策略的比例为1-监管部门采取监管策略的比例为>采取不监管策略的比例为1-;T。
建筑企业采取不执行策略的期望收益函数E,为:
E1=y“Na+Ga+Ra)+(1-e)
(Na+Ga-Pa)]+(1-y)(Na+Ga)(1)建筑企业采取执行策略的期望收益函数E2为:
E2=y(Na+Ra)+(1-y)Na(2)
建筑企业的平均期望收益函数E为:
E=%EX+(1-x)E2(3)
根据Malthusian动态方程M,建筑企业采取不执行策略的复制动态方程为:
F(x)=字=x(E1-E)=x(1-x)dt1
Ga-(1-e)(Pa+Ra)y](4)
同理,监管部门采取监管策略和不监管策略的期
望收益D1、込及平均收益函数珔和复制动态方程为:
(1-2x)Ga-(1-e)(Pa+Ra)y]
DetJ)=={(1-2x)Ga-(1-e)(Pa+R,a)y]}
{(1-2y)1-e)(Pb+Rb)x-Cb]}+
{x1-x)1-e)(Pa+Ra)}
{y1-y)1-e)(Pb+Rb)}10)
Tr(J)={(1-2x)Ga-(1-e)(Pa+Ra)y]}+
{(1-2y)[1-e)(Pb+Rb)x-Cb]}(11)
J=
雅克比矩阵反映一个可微方程与给定点的最优线性逼近。通过分析系统的雅克比矩阵,可以判断系统稳定点是否为ESS13。通过分析后发现大多数情况下,系统并不存在某一状态使得博弈双方随着博弈次数的增加而逐渐趋于稳定。因此,下面将在以上演化博弈分析的基础上建立系统动力学模
D1=xe(Nb-Cb-Pb)+(1-e)
(Nb-Cb+Rb)]+(1-x)(Nb-Cb)(5)D2=x(Nb-Pb)+(1-x)Nb(6)
D=yD1+(1-y)D2(7)
F(y)=学=y(1-y)【1-e)(Pb+Rb)x-Cb]dt
(8)
令(F(x),F(y))=(空,学)=(0,0),得到
dtdt
系统的5个均衡点为:A=(0,0),^=(0,1),
入3=(1,0),4=(1,1),
As=(X,Y)((1-e)(^b+Rb),1-e)(^a+Ra)),
其中,A1,,-A4对应的是纯战略纳什均衡,a5对应的是混合战略纳什均衡。
由式(4)和式(8)可得该系统的雅克比矩阵、行列式和迹分别为:
-x(1-x)(1-e)(Pa+Ra)
aa(9)
(1-2y)【1-e)(Pb+Rb)x-Cj.
型,描述博弈双方博弈关系的长期动力学趋势,为研究各种不确定因素和制定相关政策提供一个定性与定量相结合的仿真预测平台16。
2SD演化博弈模型的建立
结合上述分析,采用VensimPLEVersion5.9c建立建筑安全监管的SD博弈模型如图1所示。Vensim是一个图形化建模的系统动力学建模软件,具有模型模拟、数组变量、真实性检验、灵敏性测试、模型最优化等强大功能。
该模型主要有4个流位变量、2个流率变量、
9个外部变量和20个中间变量构成。4个流位变量用来表示政府监管部门中采取严格监管策略和不监管策略的部门个数、建筑企业中采取执行安全规程施工和不执行安全规程施工的企业个数;2个流率变量表示政府监管部门采取监管策略的部门数量变化率和采取不执行安全规程施工的企业的变化率;
9个外部变量分别对应表1博弈支付矩阵中的9个变量取值,见表2。
3.1模型仿真分析
模型初始值假设为:仿真起始时间INITIALTIME=0,仿真结束时间FINALTIME=100,仿真步长TIMESTEP=0.0078125,Na=3,Ga=2,Ra=I,Pa=3,Nb=3=1,Rb=1.5,Pb=2,e=0afl。下面探讨监管部门监管率和建筑企业不执行安全规程施工率,在不同初始值下系统变化的特性。3.1.1博弈双方初始策略均采用纳什均衡博弈双方初始均采用纳什均衡A1=(0,0),
对于图2中的曲线x=0,=0和曲线x=1,规程施工时,监管部门的最佳策略是不监管;当所有y=1可理解为:当所有的建筑企业都选择执行安全的建筑企业都选择不执行安全规程施工时,监管部门的最佳策略是监管。
对于图2中的曲线x=1,=0和曲线x=0,y=1可理解为:当所有的建筑企业都选择执行安全规程施工时,监管部门却选择监管;而当所有的建筑企业都选择不执行安全规程施工时,监管部门却选择不监管。也就是说当群体中的所有个体都不采取新策略时,即便先前的策略是不利的,也没有个体会学习新的有利策略,最终群体处于一种稳定的状态。
下面研究有个体采取新策略的情况。假设x=1,=0.01,即初始时所有的建筑企业均采取不执行安全规程施工,而仅有1%的监管部门监管时,博弈的演化过程如图3a所示;假设x=0.99,=1,即初始时监管部门均采取监管策略,而有99%的建筑企业不执行安全规程施工时,如图3b所示。
从图3a可知,当建筑企业总是采取不执行安全规程施工时,尽管开始只有极少的(1%)监管部门采取监管策略,但是通过学习,监管部门很快都采取监管策略,此时系统达到均衡状态A^。从图3b可知,当监管部门总是采取监管策略,尽管开始有大多数的(99%)建筑企业采取不安全施工策略,但是通过学习,建筑企业很快都采取安全施工,此时系统达到均衡状态A:。
3.1.2博弈至多一方初始时采取混合战略纳什均衡
博弈至多一方采用混合战略纳什均衡值时,假设为(0.5,V),(X*,0.9),则演化过程如图4所示。从图4可知,当系统的初始值和混合战略纳什均衡值不等时,随着时间及博弈次数的增加,博弈双方的策略选择存在着比较大的波动。此时,系统的最终状态并不理想,博弈过程很难被控制。
3.1.3惩罚力度对模型的影响
令x=0.5,二Y*时,考察惩罚力度变化对建筑企业安全施工的影响。假设TIME=50时加大对建筑企业的惩罚力度,即Pa由初始假设值3增加到6,此时模型拟合结果如图5a所示;假设TIME=50时加大对监管部门的惩罚力度,即Pb由初始假设值2增加到4,则模型模拟结果如图5b所示。由图5可看出,加大对建筑企业的惩罚力度,短期内能减小其不执行安全规程施工率,但并不能降低建筑企业的博弈均衡点,所以长期来看并不是有效的策略;但是增加对监管部门的惩罚力度,却能够有效地降低建筑企业不执行安全规程施工的概率。
3.1.4奖励力度对模型的影响
令x=0.5,r=Y*时,考察奖励力度的变化对建筑企业安全施工的影响。假设在TIME=50时加大对建筑企业的奖励力度,即R。由初始假设值1增大为3,此时模型拟合结果如图6a所示;假设TIME=50时加大对监管部门的奖励力度,即Rb由初始假设值1.5增大为5,模型拟合结果如图6b所示。由图6可见,加大对建筑企业的奖励力度,并不能降低建筑企业的博弈均衡点;但是增加对监管部门的奖励力度,却能够有效地降低建筑企业不执行安全规程施工的概率。
3.1.5监管部门监管失误率对模型的影响
令x=0.4,=1时,考察监管部门监管失误率e对建筑企业安全施工的影响,如图7所示。由图7可知,当e比较小(小于50%)时,降低监管部门的失误率能够快速、有效地降低建筑企业的不执行安全规程施工概率。当e比较大(超过50%)时,尽管监管部门总是检查,但建筑企业通过演化学习发现监管部门多数时候都出错,于是最终都会采取不执行安全规程施工的策略,且随着e的变大学习速度越快。
3.1.6安全投入和监管成本对模型的影响
令x=0.5,=Y*时,考察建筑企业的安全投入和监管部门的监管成本Cb对建筑企业不执行安全规程施工率的影响。假设在TIME=50时建筑企业的安全投入增加,即&由初始假设值2增大到5,此时模型拟合结果如图8a所示;假设TIME=50时监管部门的监管成本减小,即Cb由初始假设值1减小到0.5,模型拟合结果如图8b所示。由图8可见,高额的安全投入会导致建筑企业不惜被查出罚款的风险,最终总是选择不执行安全规程施工的策略;而减小监管部门的监管成本可有效降低建筑企业不执行安全规程施工的概率。
类似的方法分析该模型的其余外部决策变量发现,Na和Nb的变化对建筑企业不执行安全规程施工率没有明显的影响。
3.1.7惩罚机制对模型的影响
通过3.1.3中的分析发现:单纯地加大对建筑企业的惩罚力度并不能有效地防止建筑企业的不安全施工行为。如果采取动态惩罚机制,即对建筑企业的惩罚力度Pa和对监管部门的惩罚力度Pb是随着企业不执行安全规程的严重程度(可通过建筑企业不执行安全规程施工率来衡量)而变化的,那么对整个博弈模型的稳定性会产生如何影响呢?综合考虑获取企业不执行安全规程施工程度这一信息存在着信息延迟等问题,进一步深化图1所示的模型,可得到如图9所示的流图。
通过对图4和图10进行比较发现,通过动态惩罚机制,随着时间及博弈次数的增加,博弈双方的策略选择最终趋向于混合战略纳什均衡值,即动态惩罚机制相对一般惩罚策略,改变了博弈双方的支付矩阵,能够有效地抑制博弈过程的波动性,使博弈趋向于一个稳定的状态。因此,政府上级部门可以通过各种定量的手段获取建筑企业施工时不执行安全规程的程度指标,针对不同程度制定建筑企业和监管部门的处罚规定,有效地控制建筑施工中的安全问题。
3.2基于模型仿真结果的对策建议
依据上述模型仿真分析结果,笔者对我国建筑安全监管提出如下建议:
3.2.1加大对监管部门的奖惩力度
仿真结果表明,加大对监管部门的奖惩力度可以有效降低建筑企业不安全施工的概率。因此,应当建立针对监管部门及监管人员的奖励与惩罚相结合、问责与事故预防相结合的激励机制,即在评价监管部门和监管人员工作时,既要追究其在安全事故中的监管责任,也要奖励其在事故预防方面的工作业绩。这既可以有效激励监管部门和监管人员的监管力度和积极性,也能促进各级监管部门对建筑安全监管方法由事后追究责任向事前加强防治方面的转变,这是确保各项安全政策和措施有效执行的关键。
3.1.2减少监管部门的监管失误率通过监管失误率对模型影响的仿真分析可知,
监管失误率会对建筑企业的行为产生影响,较高的失误率会导致越来越多的企业不执行安全规程施工。监管部门将不安全施工认定为安全施工一般源自2种情况:一是监管人员自身水平有限未能发现;二是监管人员与建筑企业之间存在合谋或腐败。因此,减少监管失误率需从2方面着手:_是提高监管人员的专业水平和检查技术手段,二是加强监管人员的职业道德建设,提高监管部门从业人员的素质和责任感。通过减少或避免监管工作中的失误或失职,以达到良好的监督管理效果。
3.1.3降低建筑安全监管成本
从模型分析可知,减少监管成本可有效降低建筑企业不执行安全规程施工的概率。因此,监管部门应通过技术创新、加强内部运行控制等手段提高监管效率、降低监管成本,从而降低监管部门采取监管策略的门槛。监管部门采取监管的可能性越大,建筑企业违规操作的可能性相应就越小。降低建筑安全监管成本,既能在一定程度上鼓励建筑企业自我监管,也能体现节约型政府和节约型社会的改革思想。
3.1.4合理控制安全措施投入
建筑企业往往为了追求眼前的效益而不愿进行建筑安全措施投入。事实上,建筑安全管理的理想状态应该是政府与企业的“双蠃”即随着建筑安全管理水平的提高,建筑企业的经济效益和建筑安全的社会效益均显著增长17]。因此,一方面,建筑企业应采取科学的安全生产措施,在不影响安全生产的前提下,合理控制安全措施成本;另一方面,政府相关部门应利用自己的优势组织专家解决建筑安全生产中的关键技术,增强技术能力,研究经济高效的安全防护技术和机具,提高企业安全投入的效果,提高企业增加安全投入的积极性。
3.1.5建立科学的惩罚机制
-个良好的惩罚机制不是单纯依靠提高罚款额度来降低违法行为,而是在合理的水平上既能抑制不安全施工发生,也能避免博弈演化过程的波动性。模型仿真结果表明,加大对建筑企业的惩罚力度对于短期内改善建筑安全施工有一定的效果,但从建立建筑安全管理的长效机制来看,还需要有效的结合动态惩罚政策,即惩罚的力度随企业不安全施工的程度的不同而变化,从而达到稳定地控制安全事故发生的目的。通过建立科学地惩罚机制,使建筑企业将安全施工内在化、自主化,由“要我安全”转变为“我要安全”,从根本上解决建筑安全施工问题。
4结论
1)演化博弈论克服传统博弈论完全理性的局限性,而将演化博弈论与系统动力学相结合,可以更有效地拟合、解释现实中的动态博弈现象,为研究建筑安全监管这一复杂问题提供新的研究思路。