Closed xmgfx closed 4 years ago
在17年那会,RL处理这个问题不是很好,因为reward没法精确给,比如你一手烂牌,你在怎么用优秀的策略,都会输,那些最优策略反而会给负的reward;如果你一手好牌,闭眼睛都能赢,那些不好的策略反而会给正的reward。当时reward很关键,设计好reward,会有很大提升,但是很麻烦。如果每一步都有reward的极限就成了规则based的了。 MCTS在有限空间时候,肯定是最强的,而且我们时间有限,限定了AI可以看到对手牌。 最近没有跟进最新进展,很抱歉没法回答这个问题。
谢谢,很有启发。
谢谢,很有启发。
在17年那会,RL处理这个问题不是很好,因为reward没法精确给,比如你一手烂牌,你在怎么用优秀的策略,都会输,那些最优策略反而会给负的reward;如果你一手好牌,闭眼睛都能赢,那些不好的策略反而会给正的reward。当时reward很关键,设计好reward,会有很大提升,但是很麻烦。如果每一步都有reward的极限就成了规则based的了。 MCTS在有限空间时候,肯定是最强的,而且我们时间有限,限定了AI可以看到对手牌。 最近没有跟进最新进展,很抱歉没法回答这个问题。
你好。据说2019 DeeCamp他们做出来以后先开源了。然后又闭源了。请问是否有关注 。有在闭源之前得到一些代码吗 ,据说采用了多策略模型?
sorry哈,这个就不太清楚了
谢谢回复,那个issue你关的太快,我没来得及回复!新闻我在百度搜索看的: 让AI玩转斗地主 快手实践课题获Deecamp2019最佳团队奖:http://baijiahao.baidu.com/s?id=1642397979642328759&wfr=spider&for=pc 牺牲睡眠、耽误论文,三周开发出「斗地主」AI,他们拿下了今年 DeeCamp 最佳团队奖:https://cloud.tencent.com/developer/article/1494263 那可能是今年这届实现的,原来每年的题目是一样的啊。 想另外请教几个问题: 1.基于蒙特卡洛搜索的AI>基于强化学习的AI 这是在相同训练时间下比较 还是模型优势导致的啊? 2.蒙特卡洛理论上还是暴力搜索那套,为什么会比强化学习模型更强呢? 我认为强化学习应该还是有很大提升潜力,如果想继续优化提升基于强化学习模型的,你认为有哪些方向比较有效? 3.结合最近学术界开发德扑AI的经验,非完美信息博弈里面各种CFR模型取得了不小突破,这说明CFR模型用在斗地主上会更强吗?