Open Neutralzz opened 2 years ago
建议直接用我们处理好的 trainall.times2.pkl
- 训练数据有个小trick:Wang271K + 2倍的SIGHAN
建议直接用我们处理好的
trainall.times2.pkl
您好,请问这个2倍的SIGHAN具体是指?直接用Wang271K + SIGHAN差别大吗?复现出来和论文结果有一定差距。
- 训练数据有个小trick:Wang271K + 2倍的SIGHAN
建议直接用我们处理好的
trainall.times2.pkl
您好,请问这个2倍的SIGHAN具体是指?直接用Wang271K + SIGHAN差别大吗?复现出来和论文结果有一定差距。
@Zhouyuhao97 就是将SIGHAN训练数据copy成2份,和wang271k放一起用到每轮的训练。
跟直接用的训练结果差别是有点大,当初实验的文档已经没了,印象有1到2个点的差距。这个trick本身是从spellgcn里发现的,当初hengda同学复现spellgcn时也苦于其复现不出来。
至于为什么那么做能带来提升?应该还是数据分布的修正带来的效果,毕竟wang271k是伪数据。
- 训练数据有个小trick:Wang271K + 2倍的SIGHAN
建议直接用我们处理好的
trainall.times2.pkl
您好,请问这个2倍的SIGHAN具体是指?直接用Wang271K + SIGHAN差别大吗?复现出来和论文结果有一定差距。
@Zhouyuhao97 就是将SIGHAN训练数据copy成2份,和wang271k放一起用到每轮的训练。
跟直接用的训练结果差别是有点大,当初实验的文档已经没了,印象有1到2个点的差距。这个trick本身是从spellgcn里发现的,当初hengda同学复现spellgcn时也苦于其复现不出来。
至于为什么那么做能带来提升?应该还是数据分布的修正带来的效果,毕竟wang271k是伪数据。
感谢回复,今天尝试了一下确实有一些提升。
pip install --editable .
;