Institute of Computing Technology, Chinese Academy IR
不完美信息扩展式博弈中在线虚拟遗憾最小化 | |
胡裕靖1; 高阳1; 安波2 | |
2014 | |
发表期刊 | 计算机研究与发展 |
ISSN | 1000-1239 |
卷号 | 51.0期号:010页码:2160 |
摘要 | 研究在不完美信息扩展式博弈中对次优对手弱点的利用.针对该领域中一种常用方法——对手建模方法——的不足,提出了从遗憾最小化的角度来利用次优对手弱点的思想,并基于一种离线的均衡计算方法——虚拟遗憾最小化方法——将其扩展到在线博弈的场景中,实现对次优对手弱点的利用.提出了从博弈结果中估计各个信息集的虚拟价值的方法,给出2种估计手段:静态估计法和动态估计法.静态估计法直接从博弈结果的分布中进行估计,并对每个结果给以相等的估计权重;而动态估计法则对新产生的博弈结果给以较高的估计权重,以便快速地适应对手的策略变化.基于2种估计方法,提出在线博弈中虚拟遗憾最小化的算法,并在基于单牌扑克的实验中,与4种在线学习算法(DBBR,MCCFR-os,Q-learning,Sarsa)进行了对比.实验结果显示所提出的算法不仅对较弱对手的利用效果最好,还能在与4种对比算法的比赛中取得最高的胜率. |
关键词 | 扩展式博弈 不完美信息 遗憾最小化 虚拟遗憾最小化 静态估计法 动态估计法 |
语种 | 英语 |
文献类型 | 期刊论文 |
条目标识符 | http://119.78.100.204/handle/2XEOYT63/29426 |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.南京大学 2.中国科学院计算技术研究所 |
推荐引用方式 GB/T 7714 | 胡裕靖,高阳,安波. 不完美信息扩展式博弈中在线虚拟遗憾最小化[J]. 计算机研究与发展,2014,51.0(010):2160. |
APA | 胡裕靖,高阳,&安波.(2014).不完美信息扩展式博弈中在线虚拟遗憾最小化.计算机研究与发展,51.0(010),2160. |
MLA | 胡裕靖,et al."不完美信息扩展式博弈中在线虚拟遗憾最小化".计算机研究与发展 51.0.010(2014):2160. |
条目包含的文件 | 条目无相关文件。 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[胡裕靖]的文章 |
[高阳]的文章 |
[安波]的文章 |
百度学术 |
百度学术中相似的文章 |
[胡裕靖]的文章 |
[高阳]的文章 |
[安波]的文章 |
必应学术 |
必应学术中相似的文章 |
[胡裕靖]的文章 |
[高阳]的文章 |
[安波]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论