你好。关于真人对战问题

IamHuskar commented 4 years ago

你好，想问一下在QQ平台上实战，训练出的网络农民和地主胜率测试可以达到多少呢？另外想咨询一下相关问题。但是发邮件 neilyou@qq.com 好像没有响应。希望可以留一个联系方式。谢谢拉看论文内，好像胜率都不高。还有一些其他的参考 https://github.com/datamllab/rlcard 另外如果需要胜率的话更多的是使用多种方式组合。 https://gameinstitute.qq.com/course/detail/10132

qq456cvb commented 4 years ago

QQ平台的脚本不是很稳定，我们训练了若干天之后就没有继续了。你如果有兴趣可以改进一下脚本，这种外置的脚本corner case很多，尤其是发表情的时候如何判断。
你是用哪个邮箱联系我的，我去filter一下。
论文内的胜率曲线还有向上提的空间 (figure 4)，我们只跑了20天，没有继续跑了。
需要胜率确实要使用多种方式组合，如结合搜索树(类似AlphaGo) 和猜牌，可以参考IJCAI的"DeltaDou: Expert-level Doudizhu AI through Self-play"。但我个人认为这是一项工程问题，学术意义不大，更多的工作是由资源丰富的大公司不断地试验比较好的改进。我们的工作是探索纯靠RL斗地主能做到什么程度，其实现在的效果已经让我惊讶，因为完全没有显式地encode合作，猜牌之类的东西。

IamHuskar commented 4 years ago

谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢？我发邮件的邮箱是3065开头的qq 邮箱，希望可以邮件继续交流一下，谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶，但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练，遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据，提高模型的质量？盼回复。谢谢

qq456cvb commented 4 years ago

我们目前还没有和公司有合作，https://openreview.net/forum?id=rJzoujRct7，这篇文章的作者有和公司合作搞到百万级别的真人数据。但这篇文章无论写作和方法都比较糟糕，他们使用的是supervised training，而我们训练RL的时候完全是自监督，和alpha Go是类似的，其实不需要高端对战局的数据进行指导，就能超过人的水平（从人的数据学出来的策略几乎不可能超过人，逻辑上是说不通的）。这种自监督的方法可以进一步改进，如将智能体进行clustering，组成一个rank，可以参考openai starcraft（https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning）。

顺颂时祺上海交通大学尤洋电话：18818272910 邮箱：447626601@qq.com

Best regards Shanghai Jiaotong University Neil You Tel:18818272910 Mail:447626601@qq.com

------------------ Original message ------------------ From: "IamHuskar"; Sendtime: Friday, Mar 13, 2020 10:31 AM To: "qq456cvb/doudizhu-C"; Cc: "Neil"; "Comment"; Subject: Re: [qq456cvb/doudizhu-C] 你好。关于真人对战问题 (#11)

谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢？我发邮件的邮箱是3065开头的qq 邮箱，希望可以邮件继续交流一下，谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶，但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练，遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据，提高模型的质量？盼回复。谢谢

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

qq456cvb commented 4 years ago

另，我们用QQ对战平台，原本是做evaluation，而不是训练用，是测试我们的unsupervised RL在真实场景下的水平。

顺颂时祺上海交通大学尤洋电话：18818272910 邮箱：447626601@qq.com

Best regards Shanghai Jiaotong University Neil You Tel:18818272910 Mail:447626601@qq.com

------------------ Original message ------------------ From: "IamHuskar"; Sendtime: Friday, Mar 13, 2020 10:31 AM To: "qq456cvb/doudizhu-C"; Cc: "Neil"; "Comment"; Subject: Re: [qq456cvb/doudizhu-C] 你好。关于真人对战问题 (#11)

谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢？我发邮件的邮箱是3065开头的qq 邮箱，希望可以邮件继续交流一下，谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶，但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练，遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据，提高模型的质量？盼回复。谢谢

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

IamHuskar commented 4 years ago

好的。谢谢您的回复。我先再多多了解一下相关的知识。有问题再向您请教。谢谢

qq456cvb / doudizhu-C

你好。关于真人对战问题 #11