训练 teacher prob 的问题

Spico197 / DocEE

🕹️ A toolkit for document-level event extraction, containing some SOTA model implementations.

https://doc-ee.readthedocs.io/

MIT License

232 stars 36 forks source link

训练 teacher prob 的问题 #50

Closed xxllp closed 2 years ago

xxllp commented 2 years ago

看了下模型训练最后还有0.1的概率这样模型最终训练的时候其实应该只有 use_gold_span 为True的时候指标才会上升其他的时候基本都是不会增长的那这个在dev上面的效果还有参考意义吗

Spico197 commented 2 years ago

这里是直接沿用了Doc2EDAG的做法，使用了scheduled sampling的方法对前一步的预测结果做了采样，使其作为teacher model指导下游模块更新。这里他们也做了消融实验，如果去掉scheduled sampling，最终指标是会降低的。

xxllp commented 2 years ago

好的理解了这块之前我没接触过~~

kelvennn commented 1 year ago

这里是直接沿用了Doc2EDAG的做法，使用了scheduled sampling的方法对前一步的预测结果做了采样，使其作为teacher model指导下游模块更新。这里他们也做了消融实验，如果去掉scheduled sampling，最终指标是会降低的。

大大请问有没有调试过teacher_prob 的最小值？效果如何？最终性能的评估结果似乎会有波动

Spico197 commented 1 year ago

这里是直接沿用了Doc2EDAG的做法，使用了scheduled sampling的方法对前一步的预测结果做了采样，使其作为teacher model指导下游模块更新。这里他们也做了消融实验，如果去掉scheduled sampling，最终指标是会降低的。

大大请问有没有调试过teacher_prob 的最小值？效果如何？最终性能的评估结果似乎会有波动

这个倒是没调过，如果您有什么发现的话可以说一下交流交流~

kelvennn commented 1 year ago

这里是直接沿用了Doc2EDAG的做法，使用了scheduled sampling的方法对前一步的预测结果做了采样，使其作为teacher model指导下游模块更新。这里他们也做了消融实验，如果去掉scheduled sampling，最终指标是会降低的。

大大请问有没有调试过teacher_prob 的最小值？效果如何？最终性能的评估结果似乎会有波动

这个倒是没调过，如果您有什么发现的话可以说一下交流交流~

波动指的是采样概率 teacher_prob似乎使模型训练出来的最终性能不稳定，我还以为搞错了，因此跑多了几次发现最终性能出现过79.4，78.9，79.1，79.3，

kelvennn commented 1 year ago

还是说每次训练完毕，要清理训练的生成的文件？是读错了？

xxllp commented 1 year ago

每次不一样很正常吧因为有一点随机性