megvii-research / mdistiller

The official implementation of [CVPR2022] Decoupled Knowledge Distillation https://arxiv.org/abs/2203.08679 and [ICCV2023] DOT: A Distillation-Oriented Trainer https://openaccess.thecvf.com/content/ICCV2023/papers/Zhao_DOT_A_Distillation-Oriented_Trainer_ICCV_2023_paper.pdf
807 stars 123 forks source link

训练不同的模型 #37

Closed wzq12322 closed 1 year ago

wzq12322 commented 1 year ago

请问一下作者的模型是如何训练的呢,我训练了自己的resnet网络然后用来替代我从链接里下载的网络,但是出现了错误,请问可以将模型训练的py文件分享一下嘛

Zzzzz1 commented 1 year ago

可以贴一下具体的报错吗?一般来说应该是参数命名方面的问题。

wzq12322 commented 1 year ago

抱歉最近电脑连不上服务器了,只能去服务器上面拍照 微信图片_20230509150129 这个是运行了 python3 tools/train.py --cfg configs/cifar100/dkd/res562_res20.yaml 的结果,res562是我自己训练的resnet56,res562_res20.yaml这个文件是我自己定义的,将res56_res20.yaml中的res56修改成了res562 微信图片_202305091501291 微信图片_202305091501292 我把我自己训练的模型放到了res562的路径中

微信图片_202305091501293 这个是GitHub上resnet的构造,我训练的resnet就是按照这个结构

微信图片_202305091501294 如果从您的代码中导入resnet56然后进行训练就会出现这样的错误

我使用print(resnet56())发现您的resnet是自适应卷积,总共三层,每层8个BasicBlock,但是我从GitHub上下载的resnet代码是四个层,我自己将它定义为了3,4,23,3个Bottleneck Block

Zzzzz1 commented 1 year ago

看起来是网络定义和load参数存在冲突导致的,需要改网络定义的py文件

wzq12322 commented 1 year ago

谢谢您的回复!