模型复现 - Githubissues

Jorsen0 commented 3 years ago

您好，我尝试使用pytorch架构的v2模型进行复现，在实现整个模型的搭建后，两个架构分别传入相同的输入和权重，验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等，优化器使用带有梯度截断的adadelta，使用相同数据集和配置参数进行训练（唯一的区别是没有添加noise），然而训练了超过400个Epoch模型并为收敛。

是我训练的Epoch还没足够才会未收敛么？请问您训练了多少个Epoch模型可以收敛呢？还是需要其他的策略才能让模型收敛呢？

期待您任何有帮助的回复。

JianshuZhang commented 3 years ago

一般100个epoch能到ExpRate=35左右，然后添加noise，再训100个epoch能到ExpRate=45左右。即训到模型收敛，仅需200个epoch，一般都是200以内

2021年4月14日下午7:14，Jorsen0 @.***> 写道：

您好，我尝试使用pytorch架构的v2模型进行复现，在实现整个模型的搭建后，两个架构分别传入相同的输入和权重，验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等，优化器使用带有梯度截断的adadelta，使用相同数据集和配置参数进行训练（唯一的区别是没有添加noise），然而训练了超过400个Epoch模型并为收敛。

是我训练的Epoch还没足够才会未收敛么？请问您训练了多少个Epoch模型可以收敛呢？还是需要其他的策略才能让模型收敛呢？

期待您任何有帮助的回复。

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/JianshuZhang/TAP/issues/11, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETNJULXWOYEGOCWHS2FJQ3TIV2KVANCNFSM425FR3AQ.

Jorsen0 commented 3 years ago

一般100个epoch能到ExpRate=35左右，然后添加noise，再训100个epoch能到ExpRate=45左右。即训到模型收敛，仅需200个epoch，一般都是200以内 … 2021年4月14日下午7:14，Jorsen0 @.***> 写道：您好，我尝试使用pytorch架构的v2模型进行复现，在实现整个模型的搭建后，两个架构分别传入相同的输入和权重，验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等，优化器使用带有梯度截断的adadelta，使用相同数据集和配置参数进行训练（唯一的区别是没有添加noise），然而训练了超过400个Epoch模型并为收敛。是我训练的Epoch还没足够才会未收敛么？请问您训练了多少个Epoch模型可以收敛呢？还是需要其他的策略才能让模型收敛呢？期待您任何有帮助的回复。 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#11>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETNJULXWOYEGOCWHS2FJQ3TIV2KVANCNFSM425FR3AQ.

好的，感谢您的回复

henhenhahei commented 3 years ago

您好，我尝试使用pytorch架构的v2模型进行复现，在实现整个模型的搭建后，两个架构分别传入相同的输入和权重，验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等，优化器使用带有梯度截断的adadelta，使用相同数据集和配置参数进行训练（唯一的区别是没有添加noise），然而训练了超过400个Epoch模型并为收敛。

是我训练的Epoch还没足够才会未收敛么？请问您训练了多少个Epoch模型可以收敛呢？还是需要其他的策略才能让模型收敛呢？

期待您任何有帮助的回复。

您好，您使用pytorch复现的代码可以分享一下么？

JianshuZhang / TAP

模型复现 #11