加入我们,或者,欢迎回来。
您需要 登录 才可以下载或查看,没有帐号?注册会员
x
本帖最后由 LBQ 于 2018-1-12 05:29 编辑
囚徒困境作为众所周知的博弈论例子,想必各位都相当熟悉了。
已经被占据的“常见”策略
以下策略已经被占据,请避免完全一样的策略:
- 50% 几率背叛,剩下情况合作
- 第一回合合作,之后重复对方上回合
决策奖惩
与原来的经典规则不同,我们这里不按照“判刑”来计算,按照分值来计算,得分越高代表被判刑越少。
我们进行多回合(100 或 200 回合,每次模拟随机决定)囚徒困境。
每一回合,按照如下计分:
- 如果双方都选择抵赖(合作),那么双方各得 4 分。
- 如果双方都招供(背叛对方),那么双方各得 1 分。
- 如果一方招供,一方抵赖,招供的得 7 分,抵赖的得 0 分。
分数越多越好。
回合数量
若有两“人”,A 以及 B,游戏开始时,游戏会决定执行 100 或者 200(如果选择 200 回合,最后总得分会全部除以 2)回合,至于具体是 100 还是 200,随机二选一。
游戏永远不会告诉 A 与 B 是执行 100 回合还是 200 回合,需要 A 与 B 自行判断。
赛制
执行两种赛制,单淘汰锦标赛,以及“生存模拟”。最终会决定出两个不同的排名。
单淘汰锦标赛就是 1v1 锦标赛赛制,每次模拟之后分数高的获胜,分数低的直接被淘汰。
生存模拟会将每个提交的策略,做 100 次“复制”,也就说假如有 10 个总共的策略,那么会总共 1000 个“虚拟囚徒”,他们之间会随机双双匹配进行 100 / 200 回合的模拟(也就说,两个被匹配的囚徒可能有着完全一样的策略),最后这一次的模拟结束后,会删除 25% 的分数最低的“虚拟囚徒”,做 4 ~ 7 次(到时候决定)淘汰之后,剩余最多的策略获胜。
之后的追加
因为我的疏忽,导致设置了一个淘汰赛的赛制…… 设计很糟糕。
于是额外追加个单循环赛制,最终得分最高的胜利。
比赛时间
从发帖起可以开始提交,在这周周日结束前公布最终结果,请在这周六结束之前提交,原则上主办方可以不接受周日提交的策略。
主办方可能在一个群内直播模拟的结果。
提交格式
以伪代码,或者明确的行动指示,在下面回帖(如果只是来玩玩的话回帖就好,但是策略会被别人看到),或者私信我(保证策略不被泄露)。
策略是“每回合策略”,也就是每回合会做的决策。
也可以通过 QQ 等方式把策略给我。
我会将提交策略的人的论坛 ID 或者其他用户名记录,用于最终结果公示,想要匿名请注明。
也可以为自己的策略起名,假如太过奇怪的名字可能不被采纳。
伪代码的例子:
- # 策略:以牙还牙 <- 这个是策略名,可以不用起
- if rand() < 0.1 {
- 背叛
- } else {
- 如果是第一回合,背叛
- 之后,选择和对方上一轮一样的行动
- }
复制代码
明确的文字指示的例子:
- # 策略:复仇
- 如果是在99~100回合,选择背叛
- 如果是在199~200回合,选择背叛
- 其他的回合,如果对面总共背叛次数大于3次,永远选择背叛,否则选择合作
复制代码
如果用到了特殊的统计量,或者复杂度比较高的计算(按理说不需要),最好给出 ruby 代码的定义。
如果想要保证隐私可以私信我,注明是这个囚徒困境比赛的即可。
可以使用随机数生成器。
如果相同(或者很相近)策略被提交的次数过多(>= 3),主办方有可能选择不再接受新的相同策略。
其他
主办方会将“永远背叛”和“永远合作”以及“单纯模仿”的策略自动参赛,当做对照,也就说一开始就有三个策略存在于这个比赛中。不接受其他“永远背叛”以及“永远合作”以及“单纯模仿”策略。
例子
假设 “永远背叛” vs "永远合作",假设模拟随机抽到游戏执行 100 轮(当然 200 轮结果没有变化),那么按照计分规则,“永远背叛”获得 700 分,“永远合作” 获得 0 分,“永远背叛” 胜利。
每个“囚徒”知道之前所有执行过的动作(自己的,对方的),不知道对方这回合会做什么动作。
于是…… 重点还是,希望这个能让大家玩得开心,假如大家只是有小的一时兴起的策略也欢迎直接在底下回帖,QQ 上找我,私信我等等。
注册的人会过几天公开,但愿这个介绍不是特别令人混乱。
临时更新:单纯模仿(如下定义),会自动参赛,请各位不要提交完全相同的(有些许改变的版本可以)
# 单纯模仿
第一回合背叛
之后重复对面上回合动作
|