关于lora微调脚本的数据集的问题

LlamaFamily / Llama-Chinese

Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

https://llama.family

14.01k stars 1.26k forks source link

关于lora微调脚本的数据集的问题 #218

Open tianjianmeng opened 1 year ago

tianjianmeng commented 1 year ago

--train_files ../../data/train_sft.csv \
            ../../data/train_sft_sharegpt.csv \
--validation_files  ../../data/dev_sft.csv \
                     ../../data/dev_sft_sharegpt.csv \

这段里面提到的四个文件的作用分别是什么（我看有些llama2的微调模型只用一个train文件就可以微调，为什么这里要4个），如果我想要自己微调模型，是否要编写全部四个文件？还有代码库里的data文件夹没有train_sft_sharegpt.csv这个文件，为什么？感谢回答

hungryDodo commented 1 year ago

这个参数接收的train_files和validation_files是文件名的list，所以可以是单个 / 多个文件，在代码里面使用load_dataset接收这两个list：

raw_datasets = load_dataset(
            extension,
            data_files=data_files,
            cache_dir=os.path.join(training_args.output_dir, 'dataset_cache'),
            use_auth_token=True if model_args.use_auth_token else None,
            **dataset_args,
        )

也可以只输入一个train文件，此时需要同时输入validation_split_percentage参数，此时会据此进行数据集划分.

tianjianmeng commented 1 year ago

@hungryDodo 感谢回答！这方面我是小白，也就是说我在运行指令时可以直接这样： --train_files ../../data/训练集.csv --validation_files ../../data/验证集.csv 或者只输入： --train_files ../../data/训练集.csv 然后通过validation_split_percentage参数对训练集进行划分？就可以正常微调了。

还有您说参数接收的是list的意思就是--train_files会接收多个文件，最终把他们拼接起来训练？也就是说，只要我保证我的csv中格式是： "~~Human: 你好。~~ ~~Assistant: 你好~~" 那么根据代码，它就会自动接收这些文件并进行训练？