Open namedBen opened 6 years ago
@namedBen 分析如下:
首先谢谢您的回复,对于第一点,我也是这么实现的,对于第二点,目前我是用VGG7训练CIFAR10,但是根据您论文所提供的训练策略训练full percision weight networks时,取initial learning rate=0.1,optimizer=SGD,训练是loss爆炸的(epoch1就产生)。请问您具体是如何实现FPWNs达到92.88的?
您可以把主要训练参数和log信息贴一下吗?
训练超参数: SGD: base_lr=0.1, momentum=0.9, weight_decay=1e-4 batch_size: 10
这是用pytorch框架实现的吗?跟原始caffe的repo有几点差别:
嗯嗯,用的是pytorch 1.batch size我试过,100和10都会nan 2.您说的conv层有bias,我一开始想过,但是后来觉得量化操作应该要去除bias,才能准确评价量化Weight的影响 3.这个我还真没注意到,谢谢提醒!之后我会用caffe或者改一下pytorch的BN层重新训练下,看看效果。 再次谢谢您的解答!(比心心)
您好,当我在用论文提供的网络结构以及初始学习率训练cifar10的时候,发现无法训练,Loss爆炸了直接nan。您的VGG7参考网络结构为“2×(128-C3) + MP2 +2×(256-C3) + MP2 + 2×(512-C3) + MP2 + 1024-FC + Softmax。想请教您两个问题: 1.在1024-FC层之前,特征图的大小为batch 512 4 * 4,请问这个1024FC是如何做到把8192变成10的维度的? 2.其次,按照BPWNs的网络结构 2×1024F C)−10SVM,以您参考的base_lr=0.1训练的loss是nan,请问这是什么原因? 蟹蟹