Closed xxllp closed 2 years ago
这里是直接沿用了Doc2EDAG的做法,使用了scheduled sampling的方法对前一步的预测结果做了采样,使其作为teacher model指导下游模块更新。这里他们也做了消融实验,如果去掉scheduled sampling,最终指标是会降低的。
好的 理解了 这块之前我没接触过~~
这里是直接沿用了Doc2EDAG的做法,使用了scheduled sampling的方法对前一步的预测结果做了采样,使其作为teacher model指导下游模块更新。这里他们也做了消融实验,如果去掉scheduled sampling,最终指标是会降低的。
大大请问有没有调试过teacher_prob 的最小值? 效果如何? 最终性能的评估结果似乎会有波动
这里是直接沿用了Doc2EDAG的做法,使用了scheduled sampling的方法对前一步的预测结果做了采样,使其作为teacher model指导下游模块更新。这里他们也做了消融实验,如果去掉scheduled sampling,最终指标是会降低的。
大大请问有没有调试过teacher_prob 的最小值? 效果如何? 最终性能的评估结果似乎会有波动
这个倒是没调过,如果您有什么发现的话可以说一下交流交流~
这里是直接沿用了Doc2EDAG的做法,使用了scheduled sampling的方法对前一步的预测结果做了采样,使其作为teacher model指导下游模块更新。这里他们也做了消融实验,如果去掉scheduled sampling,最终指标是会降低的。
大大请问有没有调试过teacher_prob 的最小值? 效果如何? 最终性能的评估结果似乎会有波动
这个倒是没调过,如果您有什么发现的话可以说一下交流交流~
波动指的是 采样概率 teacher_prob似乎使模型训练出来的最终性能不稳定,我还以为搞错了,因此跑多了几次 发现最终性能出现过79.4,78.9,79.1,79.3,
还是说每次训练完毕,要清理训练的生成的文件?是读错了?
每次不一样很正常吧 因为有一点随机性
看了下模型训练最后还有0.1的概率 这样模型最终训练的时候其实应该只有 use_gold_span 为True的时候 指标才会上升 其他的时候基本都是不会增长的 那这个在dev上面的效果还有参考意义吗