qq456cvb / doudizhu-C

C++/python fight the lord with pybind11 (强化学习AI斗地主), Accepted to AIIDE-2020
157 stars 39 forks source link

你好。关于真人对战问题 #11

Closed IamHuskar closed 4 years ago

IamHuskar commented 4 years ago

你好,想问一下在QQ平台上实战,训练出的网络农民和地主胜率测试可以达到多少呢? 另外想咨询一下 相关问题。但是发邮件 neilyou@qq.com 好像没有响应。希望可以留一个联系方式。谢谢拉 看论文内,好像胜率都不高。 还有一些其他的参考 https://github.com/datamllab/rlcard 另外如果需要胜率的话 更多的是使用多种方式组合。 https://gameinstitute.qq.com/course/detail/10132

qq456cvb commented 4 years ago
  1. QQ平台的脚本不是很稳定,我们训练了若干天之后就没有继续了。你如果有兴趣可以改进一下脚本,这种外置的脚本corner case很多,尤其是发表情的时候如何判断。
  2. 你是用哪个邮箱联系我的,我去filter一下。
  3. 论文内的胜率曲线还有向上提的空间 (figure 4),我们只跑了20天,没有继续跑了。
  4. 需要胜率确实要使用多种方式组合,如结合搜索树(类似AlphaGo) 和猜牌,可以参考IJCAI的"DeltaDou: Expert-level Doudizhu AI through Self-play"。但我个人认为这是一项工程问题,学术意义不大,更多的工作是由资源丰富的大公司不断地试验比较好的改进。我们的工作是探索纯靠RL斗地主能做到什么程度,其实现在的效果已经让我惊讶,因为完全没有显式地encode合作,猜牌之类的东西。
IamHuskar commented 4 years ago

谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢? 我发邮件的邮箱是3065开头的qq 邮箱,希望可以邮件继续交流一下,谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶,但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练,遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据,提高模型的质量?盼回复。谢谢

qq456cvb commented 4 years ago

我们目前还没有和公司有合作,https://openreview.net/forum?id=rJzoujRct7,这篇文章的作者有和公司合作搞到百万级别的真人数据。但这篇文章无论写作和方法都比较糟糕,他们使用的是supervised training,而我们训练RL的时候完全是自监督,和alpha Go是类似的,其实不需要高端对战局的数据进行指导,就能超过人的水平(从人的数据学出来的策略几乎不可能超过人,逻辑上是说不通的)。这种自监督的方法可以进一步改进,如将智能体进行clustering,组成一个rank,可以参考openai starcraft(https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning)。


顺颂时祺 上海交通大学 尤洋电话:18818272910 邮箱:447626601@qq.com

Best regards Shanghai Jiaotong University Neil You Tel:18818272910 Mail:447626601@qq.com

------------------ Original message ------------------ From: "IamHuskar"; Sendtime: Friday, Mar 13, 2020 10:31 AM To: "qq456cvb/doudizhu-C"; Cc: "Neil"; "Comment"; Subject: Re: [qq456cvb/doudizhu-C] 你好。关于真人对战问题 (#11)

谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢? 我发邮件的邮箱是3065开头的qq 邮箱,希望可以邮件继续交流一下,谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶,但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练,遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据,提高模型的质量?盼回复。谢谢

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

qq456cvb commented 4 years ago

另,我们用QQ对战平台,原本是做evaluation,而不是训练用,是测试我们的unsupervised RL在真实场景下的水平。


顺颂时祺 上海交通大学 尤洋电话:18818272910 邮箱:447626601@qq.com

Best regards Shanghai Jiaotong University Neil You Tel:18818272910 Mail:447626601@qq.com

------------------ Original message ------------------ From: "IamHuskar"; Sendtime: Friday, Mar 13, 2020 10:31 AM To: "qq456cvb/doudizhu-C"; Cc: "Neil"; "Comment"; Subject: Re: [qq456cvb/doudizhu-C] 你好。关于真人对战问题 (#11)

谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢? 我发邮件的邮箱是3065开头的qq 邮箱,希望可以邮件继续交流一下,谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶,但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练,遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据,提高模型的质量?盼回复。谢谢

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

IamHuskar commented 4 years ago

好的。谢谢您的回复。我先再多多了解一下相关的知识。有问题再向您请教。谢谢