Closed HansonXia closed 5 years ago
您好,我尝试用你的repo tf1分支来训练我自己的模型,共3万2千张68点数据。使用默认的shuffle net,没有预训练模型,训练到90epoch,关键点预测偏差很大。请问是由于没有预训练模型的原因,还是因为数据量不够?
我觉得可能是某个地方没有弄对, 偏差很大,是完全不对,还是误差大呢
@610265158 是误差大,不是完全不对。具体NME是多少我没有测试,我是把结果画在视频帧上查看的。
@610265158 是误差大,不是完全不对。具体NME是多少我没有测试,我是把结果画在视频帧上查看的。
loss 降到多少了呢
@610265158 epoch 95: iter 2970, total_loss=11.388758 loss=9.881962 leye_loss=0.526899 reye_loss=0.541418 mouth_loss=0.388536 leye_acc=0.757812 reye_acc=0.710938 mouth_acc=0.875000 l2_loss=0.049942 learn_rate=1.000000e-03
@610265158 epoch 95: iter 2970, total_loss=11.388758 loss=9.881962 leye_loss=0.526899 reye_loss=0.541418 mouth_loss=0.388536 leye_acc=0.757812 reye_acc=0.710938 mouth_acc=0.875000 l2_loss=0.049942 learn_rate=1.000000e-03
需要调调参了,学习率都没有变小呢, loss值也还挺大的, 而且里面的数据增强可能不太适合你自己的数据, 分布应该不太一致。
多跑一会,我150000个iter学习率 才下降一次, 虽然95个epoch了,但是才3000个iter 不到。
config.TRAIN.lr_value_every_step = [0.001,0.0001,0.00001,0.000001] ####lr policy config.TRAIN.lr_decay_every_step = [150000,250000,300000]
@610265158 我也注意到了这个,已经调整了。训练的总数据量是不是应该按照log中的balance之后的值来算
@610265158 我也注意到了这个,已经调整了。训练的总数据量是不是应该按照log中的balance之后的值来算
是的,多跑一下, 我跑的最后的loss 在4 多一点,
problem may have been solved
您好,我尝试用你的repo tf1分支来训练我自己的模型,共3万2千张68点数据。使用默认的shuffle net,没有预训练模型,训练到90epoch,关键点预测偏差很大。请问是由于没有预训练模型的原因,还是因为数据量不够?