LlamaFamily / Llama-Chinese

Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用
https://llama.family
14.01k stars 1.26k forks source link

关于lora微调脚本的数据集的问题 #218

Open tianjianmeng opened 1 year ago

tianjianmeng commented 1 year ago
--train_files ../../data/train_sft.csv \
            ../../data/train_sft_sharegpt.csv \
--validation_files  ../../data/dev_sft.csv \
                     ../../data/dev_sft_sharegpt.csv \

这段里面提到的四个文件的作用分别是什么(我看有些llama2的微调模型只用一个train文件就可以微调,为什么这里要4个),如果我想要自己微调模型,是否要编写全部四个文件?还有代码库里的data文件夹没有train_sft_sharegpt.csv这个文件,为什么? 感谢回答

hungryDodo commented 1 year ago
raw_datasets = load_dataset(
            extension,
            data_files=data_files,
            cache_dir=os.path.join(training_args.output_dir, 'dataset_cache'),
            use_auth_token=True if model_args.use_auth_token else None,
            **dataset_args,
        )
tianjianmeng commented 1 year ago

@hungryDodo 感谢回答! 这方面我是小白,也就是说我在运行指令时可以直接这样: --train_files ../../data/训练集.csv --validation_files ../../data/验证集.csv 或者只输入: --train_files ../../data/训练集.csv 然后通过validation_split_percentage参数对训练集进行划分?就可以正常微调了。

还有您说参数接收的是list的意思就是--train_files会接收多个文件,最终把他们拼接起来训练? 也就是说,只要我保证我的csv中格式是: "Human: 你好。 Assistant: 你好" 那么根据代码,它就会自动接收这些文件并进行训练?