Closed IamHuskar closed 4 years ago
谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢? 我发邮件的邮箱是3065开头的qq 邮箱,希望可以邮件继续交流一下,谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶,但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练,遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据,提高模型的质量?盼回复。谢谢
我们目前还没有和公司有合作,https://openreview.net/forum?id=rJzoujRct7,这篇文章的作者有和公司合作搞到百万级别的真人数据。但这篇文章无论写作和方法都比较糟糕,他们使用的是supervised training,而我们训练RL的时候完全是自监督,和alpha Go是类似的,其实不需要高端对战局的数据进行指导,就能超过人的水平(从人的数据学出来的策略几乎不可能超过人,逻辑上是说不通的)。这种自监督的方法可以进一步改进,如将智能体进行clustering,组成一个rank,可以参考openai starcraft(https://deepmind.com/blog/article/AlphaStar-Grandmaster-level-in-StarCraft-II-using-multi-agent-reinforcement-learning)。
顺颂时祺 上海交通大学 尤洋电话:18818272910 邮箱:447626601@qq.com
Best regards Shanghai Jiaotong University Neil You Tel:18818272910 Mail:447626601@qq.com
------------------ Original message ------------------ From: "IamHuskar"; Sendtime: Friday, Mar 13, 2020 10:31 AM To: "qq456cvb/doudizhu-C"; Cc: "Neil"; "Comment"; Subject: Re: [qq456cvb/doudizhu-C] 你好。关于真人对战问题 (#11)
谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢? 我发邮件的邮箱是3065开头的qq 邮箱,希望可以邮件继续交流一下,谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶,但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练,遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据,提高模型的质量?盼回复。谢谢
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
另,我们用QQ对战平台,原本是做evaluation,而不是训练用,是测试我们的unsupervised RL在真实场景下的水平。
顺颂时祺 上海交通大学 尤洋电话:18818272910 邮箱:447626601@qq.com
Best regards Shanghai Jiaotong University Neil You Tel:18818272910 Mail:447626601@qq.com
------------------ Original message ------------------ From: "IamHuskar"; Sendtime: Friday, Mar 13, 2020 10:31 AM To: "qq456cvb/doudizhu-C"; Cc: "Neil"; "Comment"; Subject: Re: [qq456cvb/doudizhu-C] 你好。关于真人对战问题 (#11)
谢谢你的回复。用QQ的训练你是为了获取更多的play对局数据吗? 因为这些数据是质量更高一些的局.不是random出牌或者最简单的策略出牌的。你们有没有其他渠道去合作得到更多高端的训练局数据呢? 我发邮件的邮箱是3065开头的qq 邮箱,希望可以邮件继续交流一下,谢谢了。纯靠RL 我看到结果已经接近于50%了确实让我觉得惊讶,但是这个胜率应该是和玩家质量相关的。你们如果没有采用高端对战局的数据训练,遇到高端局估计胜率会比较小。不知道你们是否有从其他渠道得到百万级别的各种对局数据,提高模型的质量?盼回复。谢谢
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
好的。谢谢您的回复。我先再多多了解一下相关的知识。有问题再向您请教。谢谢
你好,想问一下在QQ平台上实战,训练出的网络农民和地主胜率测试可以达到多少呢? 另外想咨询一下 相关问题。但是发邮件 neilyou@qq.com 好像没有响应。希望可以留一个联系方式。谢谢拉 看论文内,好像胜率都不高。 还有一些其他的参考 https://github.com/datamllab/rlcard 另外如果需要胜率的话 更多的是使用多种方式组合。 https://gameinstitute.qq.com/course/detail/10132