Open tianjianmeng opened 1 year ago
train_files
和validation_files
是文件名的list
,所以可以是单个 / 多个文件,在代码里面使用load_dataset
接收这两个list
:raw_datasets = load_dataset(
extension,
data_files=data_files,
cache_dir=os.path.join(training_args.output_dir, 'dataset_cache'),
use_auth_token=True if model_args.use_auth_token else None,
**dataset_args,
)
validation_split_percentage
参数,此时会据此进行数据集划分.@hungryDodo 感谢回答! 这方面我是小白,也就是说我在运行指令时可以直接这样: --train_files ../../data/训练集.csv --validation_files ../../data/验证集.csv 或者只输入: --train_files ../../data/训练集.csv 然后通过validation_split_percentage参数对训练集进行划分?就可以正常微调了。
还有您说参数接收的是list的意思就是--train_files会接收多个文件,最终把他们拼接起来训练?
也就是说,只要我保证我的csv中格式是:
"Human: 你好。
Assistant: 你好"
那么根据代码,它就会自动接收这些文件并进行训练?
这段里面提到的四个文件的作用分别是什么(我看有些llama2的微调模型只用一个train文件就可以微调,为什么这里要4个),如果我想要自己微调模型,是否要编写全部四个文件?还有代码库里的data文件夹没有train_sft_sharegpt.csv这个文件,为什么? 感谢回答