datamllab / rlcard

Reinforcement Learning / AI Bots in Card (Poker) Games - Blackjack, Leduc, Texas, DouDizhu, Mahjong, UNO.
http://www.rlcard.org
MIT License
2.86k stars 618 forks source link

训练的模型如何在实际生产中使用呢 #152

Open weiwenwang opened 4 years ago

weiwenwang commented 4 years ago

大佬们好, 比如,通过doudizhu_dqn训练的模型已经保存, 我理解生产中,可能需要把模型加载, 然后把场上的情况转换成state, 输入模型,然后模型输出最好的action, 这样对吗, 这个怎么操作呢, 能出一个demo吗, 我看了leduc_holdem_nfsp_load_model.py这个应该是快速对局,测试模型优劣的,生产中如何操作呢, dqn_load_model的demo吗 多谢, 祝好

daochenzha commented 4 years ago

你好,

我们只提供训练环境和基础算法,以方便测试。实际应用还需要很多工程的东西。比如把state和action和真实游戏中对接起来。state和action都是numpy向量,可以参考https://github.com/datamllab/rlcard/blob/master/rlcard/envs/doudizhu.py

实际应用中可能还需要其他的一些工程性的东西来提高效果。比如调整reward,以及尝试不同的特征。我们的目标是提供最基本框架和和基本的算法,方便后续开发。谢谢。

weiwenwang commented 4 years ago

明白您的意思, 我可能需要补充点tf1的知识,来解决剩下的问题 我们是国内做棋牌的, 你这套环境已经帮助我们很多了, 非常感谢并持续关注

wearetvxq commented 4 years ago

@weiwenwang 请问您有了进一步的进展吗? 不是python 方向, 想了解更多一点来, 看是否深入学习