Closed leeeeeeo closed 7 years ago
您好! NIN的论文中用多个mlpconv叠加,但是没有使用全连接层,使参数较少。 您的文章里既使用了NIN又使用了全连接层。 所以NIN是如何减少参数的呢? 而且,和谁相比,参数减少了? 是和model_A吗? 为什么我计算出来反而A的参数比B更少呢? 谢谢!
您好! NIN的论文中用多个mlpconv叠加,但是没有使用全连接层,使参数较少。 您的文章里既使用了NIN又使用了全连接层。 所以NIN是如何减少参数的呢? 而且,和谁相比,参数减少了? 是和model_A吗? 为什么我计算出来反而A的参数比B更少呢? 谢谢!