Open crmlei opened 2 months ago
补充说明下,是全参数微调
这个是正常的现象,如果想要保留模型的通用能力,需要将通用数据集和垂直领域数据集按照一个配比混合起来训练。
这个是正常的现象,如果想要保留模型的通用能力,需要将通用数据集和垂直领域数据集按照一个配比混合起来训练。
那么一般这个比例是多少合适?
通用:垂直领域=1:1或者通用:垂直领域=5:1都可以,侧重点有区别;
如果是通用:垂直领域=1:1,就是比较侧重垂直领域; 如果是通用:垂直领域=5:1,就是在侧重通用的情况下增强垂直领域。
这个是正常的现象,如果想要保留模型的通用能力,需要将通用数据集和垂直领域数据集按照一个配比混合起来训练。
如果全量微调带上通用的数据,指标大概会比全量微调提升多少,你们有做过相关的实验吗?
通用:垂直领域=1:1或者通用:垂直领域=5:1都可以,侧重点有区别;
如果是通用:垂直领域=1:1,就是比较侧重垂直领域; 如果是通用:垂直领域=5:1,就是在侧重通用的情况下增强垂直领域。
@czczup
请问,我全量微调InternVL2-8B(用了sft数据中的一部分VQA数据),最终在ai2diagram_test
测试集上评测,发现accuracy下降的很严重(不如pretrained model),怎么训才能达到甚至超过pretrained model?
chartqa
、ai2d
、geoqa+
PER_DEVICE_BATCH_SIZE=1
zero_stage3_config.json
set -x
GPUS=${GPUS:-8}
BATCH_SIZE=${BATCH_SIZE:-128}
PER_DEVICE_BATCH_SIZE=${PER_DEVICE_BATCH_SIZE:-4}
GRADIENT_ACC=$((BATCH_SIZE / PER_DEVICE_BATCH_SIZE / GPUS))
export PYTHONPATH="${PYTHONPATH}:$(pwd)"
export MASTER_PORT=34229
export TF_CPP_MIN_LOG_LEVEL=3
export LAUNCHER=pytorch
OUTPUT_DIR='work_dirs/internvl_chat_v2_0/internvl2_8b_internlm2_7b_dynamic_res_2nd_finetune_full'
if [ ! -d "$OUTPUT_DIR" ]; then
mkdir -p "$OUTPUT_DIR"
fi
# number of gpus: 8
# batch size per gpu: 4
# gradient accumulation steps: 4
# total batch size: 128
# epoch: 1
torchrun \
--nnodes=1 \
--node_rank=0 \
--master_addr=127.0.0.1 \
--nproc_per_node=${GPUS} \
--master_port=${MASTER_PORT} \
internvl/train/internvl_chat_finetune.py \
--model_name_or_path "./pretrained/InternVL2-8B" \
--conv_style "internlm2-chat" \
--output_dir ${OUTPUT_DIR} \
--meta_path "reimplement_internvl_1_2_finetune_custom.json" \
--overwrite_output_dir True \
--force_image_size 448 \
--max_dynamic_patch 6 \
--down_sample_ratio 0.5 \
--drop_path_rate 0.1 \
--freeze_llm False \
--freeze_mlp False \
--freeze_backbone True \
--vision_select_layer -1 \
--dataloader_num_workers 4 \
--bf16 True \
--num_train_epochs 1 \
--per_device_train_batch_size ${PER_DEVICE_BATCH_SIZE} \
--gradient_accumulation_steps ${GRADIENT_ACC} \
--evaluation_strategy "no" \
--save_strategy "steps" \
--save_steps 200 \
--save_total_limit 1 \
--learning_rate 4e-5 \
--weight_decay 0.01 \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--max_seq_length 4096 \
--do_train True \
--grad_checkpoint True \
--group_by_length True \
--dynamic_image_size True \
--use_thumbnail True \
--ps_version 'v2' \
--deepspeed "zero_stage3_config.json" \
--report_to "tensorboard" \
2>&1 | tee -a "${OUTPUT_DIR}/training_log.txt"
训练过程loss如下
pretrained、ckpt400、ckpt600、ckpt800、last,在ai2diagram_test
测试集上accuracy分别是0.8374、0.5126、0.6635、0.6885、0.6881,如下
Motivation
用InternVL2-4B 在一个700多张图片的数据集上微调一个垂直领域的图片理解任务。微调后发现输入通用prompt,比如“请简单描述图片的内容”或“请问图片中是否有车辆”,但输出基本都是微调数据集上的答案。好像通用的能力消失了。不知道这样的问题有没有解决方案?谢谢。
Related resources
No response
Additional context
No response