JianshuZhang / TAP

Track, Attend and Parse for Online Handwritten Mathematical Expression Recognition
71 stars 27 forks source link

模型复现 #11

Open Jorsen0 opened 3 years ago

Jorsen0 commented 3 years ago

您好,我尝试使用pytorch架构的v2模型进行复现,在实现整个模型的搭建后,两个架构分别传入相同的输入和权重,验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等,优化器使用带有梯度截断的adadelta,使用相同数据集和配置参数进行训练(唯一的区别是没有添加noise),然而训练了超过400个Epoch模型并为收敛。

是我训练的Epoch还没足够才会未收敛么?请问您训练了多少个Epoch模型可以收敛呢? 还是需要其他的策略才能让模型收敛呢?

期待您任何有帮助的回复。

JianshuZhang commented 3 years ago

一般100个epoch能到ExpRate=35左右,然后添加noise,再训100个epoch能到ExpRate=45左右。即训到模型收敛,仅需200个epoch,一般都是200以内

2021年4月14日 下午7:14,Jorsen0 @.***> 写道:

您好,我尝试使用pytorch架构的v2模型进行复现,在实现整个模型的搭建后,两个架构分别传入相同的输入和权重,验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等,优化器使用带有梯度截断的adadelta,使用相同数据集和配置参数进行训练(唯一的区别是没有添加noise),然而训练了超过400个Epoch模型并为收敛。

是我训练的Epoch还没足够才会未收敛么?请问您训练了多少个Epoch模型可以收敛呢? 还是需要其他的策略才能让模型收敛呢?

期待您任何有帮助的回复。

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/JianshuZhang/TAP/issues/11, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETNJULXWOYEGOCWHS2FJQ3TIV2KVANCNFSM425FR3AQ.

Jorsen0 commented 3 years ago

一般100个epoch能到ExpRate=35左右,然后添加noise,再训100个epoch能到ExpRate=45左右。即训到模型收敛,仅需200个epoch,一般都是200以内 2021年4月14日 下午7:14,Jorsen0 @.***> 写道: 您好,我尝试使用pytorch架构的v2模型进行复现,在实现整个模型的搭建后,两个架构分别传入相同的输入和权重,验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等,优化器使用带有梯度截断的adadelta,使用相同数据集和配置参数进行训练(唯一的区别是没有添加noise),然而训练了超过400个Epoch模型并为收敛。 是我训练的Epoch还没足够才会未收敛么?请问您训练了多少个Epoch模型可以收敛呢? 还是需要其他的策略才能让模型收敛呢? 期待您任何有帮助的回复。 — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#11>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AETNJULXWOYEGOCWHS2FJQ3TIV2KVANCNFSM425FR3AQ.

好的,感谢您的回复

henhenhahei commented 3 years ago

您好,我尝试使用pytorch架构的v2模型进行复现,在实现整个模型的搭建后,两个架构分别传入相同的输入和权重,验证了Tracker输出ctx、Attention输出ctxs、Parser输出proj_h、模型类别输出概率probs、损失值cost等值均相等,优化器使用带有梯度截断的adadelta,使用相同数据集和配置参数进行训练(唯一的区别是没有添加noise),然而训练了超过400个Epoch模型并为收敛。

是我训练的Epoch还没足够才会未收敛么?请问您训练了多少个Epoch模型可以收敛呢? 还是需要其他的策略才能让模型收敛呢?

期待您任何有帮助的回复。

您好,您使用pytorch复现的代码可以分享一下么?