huawei-noah / Pretrained-IPT

Apache License 2.0
424 stars 63 forks source link

训练过程 #47

Closed zhuyr97 closed 1 year ago

zhuyr97 commented 1 year ago

第一阶段: Pre-training 第二阶段: Finetuning on the specific task

但在第一阶段时是要训练multi-heads,multi-tails; 训练时一个batch 只是随机选一种task 的pair 数据送入到model中,利用反向传播来更新相应的head,tail,和body;其中是不是需要设置,在训练A task时,其他 task 所对应的heads,tails是保持不变的(不会被更新的)

第二阶段:只保留相应的task的head 和tail,其他的heads和tails是直接丢弃的

这个过程想确认一下

zhuyr97 commented 1 year ago

在https://gitee.com/mindspore/models/tree/master/research/cv/IPT 提及了 training 过程,这里的scale不应该是6嘛 (论文里用了6种数据),这里的2+3+4+1+1+1 是什么含义呢?

python train_finetune.py --distribute --imagenet 0 --batch_size 64 --lr 2e-5 --scale 2+3+4+1+1+1 --model vtip --num_queries 6 --chop_new --num_layers 4 --task_id $TASK_ID --dir_data $DATA_PATH --pth_path $MODEL --epochs 50

HantingChen commented 1 year ago

第一阶段: Pre-training 第二阶段: Finetuning on the specific task

但在第一阶段时是要训练multi-heads,multi-tails; 训练时一个batch 只是随机选一种task 的pair 数据送入到model中,利用反向传播来更新相应的head,tail,和body;其中是不是需要设置,在训练A task时,其他 task 所对应的heads,tails是保持不变的(不会被更新的)

第二阶段:只保留相应的task的head 和tail,其他的heads和tails是直接丢弃的

这个过程想确认一下

是的

在https://gitee.com/mindspore/models/tree/master/research/cv/IPT 提及了 training 过程,这里的scale不应该是6嘛 (论文里用了6种数据),这里的2+3+4+1+1+1 是什么含义呢?

python train_finetune.py --distribute --imagenet 0 --batch_size 64 --lr 2e-5 --scale 2+3+4+1+1+1 --model vtip --num_queries 6 --chop_new --num_layers 4 --task_id $TASK_ID --dir_data $DATA_PATH --pth_path $MODEL --epochs 50

这里是指缩放的scale,sr2 3 *4 需要缩放2 3 4倍,其他不需要,加起来一共六种任务。

zhuyr97 commented 1 year ago

第一阶段: Pre-training 第二阶段: Finetuning on the specific task 但在第一阶段时是要训练multi-heads,multi-tails; 训练时一个batch 只是随机选一种task 的pair 数据送入到model中,利用反向传播来更新相应的head,tail,和body;其中是不是需要设置,在训练A task时,其他 task 所对应的heads,tails是保持不变的(不会被更新的) 第二阶段:只保留相应的task的head 和tail,其他的heads和tails是直接丢弃的 这个过程想确认一下

是的

在https://gitee.com/mindspore/models/tree/master/research/cv/IPT 提及了 training 过程,这里的scale不应该是6嘛 (论文里用了6种数据),这里的2+3+4+1+1+1 是什么含义呢? python train_finetune.py --distribute --imagenet 0 --batch_size 64 --lr 2e-5 --scale 2+3+4+1+1+1 --model vtip --num_queries 6 --chop_new --num_layers 4 --task_id $TASK_ID --dir_data $DATA_PATH --pth_path $MODEL --epochs 50

这里是指缩放的scale,sr2 3 *4 需要缩放2 3 4倍,其他不需要,加起来一共六种任务。

谢谢明白了