Early Stop与Learning rate decay问题
我看代码中其实采用了Early Stop及Learning rate decay,但是代码被注释掉了,我想问下前后的差别有多少?
dev 验证及batch扩充问题
最后一个是小问题,我看代码中将dev放在train的batch遍历中,采用step进行控制,传统的我见过的,都是先训练完train,然后进行dev,我想问下这两者哪一个是标准的?
对于batch扩充问题,楼主采用对不足的部分进行复制,以前看有的代码采用对于整个数据进行随机扩充为batch_size的整数倍,另外想问下对于TF的动态batch_size的实现问题(采用assign?),楼主有好的思路?
最近Fork了楼主的代码,楼主实力确实强,顶礼膜拜。下面有几点实现细节问题想问下楼主,烦请回答下。