Closed Volta-lemon closed 2 months ago
如果要读json文件的话,config需要改为:
train_dataset = dict(
dataset=dict(type=load_dataset, path='json', data_files='/root/ft/data/Coal_mine_safety_data.json'),
xxx
)
如果要读json文件的话,config需要改为:
train_dataset = dict( dataset=dict(type=load_dataset, path='json', data_files='/root/ft/data/Coal_mine_safety_data.json'), xxx )
解决了我的问题
1. 问题
全参训练internlm2_1.8b的时候配置文件里面,数据集的路径和qlora训练时候有什么不一样吗?我配置同样的路径,但是qlora可以训练,而全参会报错:FileNotFoundError: Couldn't find a dataset script at /root/ft/data/Coal_mine_safety_data.json/Coal_mine_safety_data.json.py or any data file in the same directory. 尝试过:全参20b的配置文件:list路径,改成list也会报错说要str不要list。
data_files = ['/root/ft20b/data/Coal_mine_safety_data-Copy.json']
2. 背景
开发机是使用Internstudio 2*A100,使用studio-conda xtuner0.1.17配置环境,模型训练的配置文件如下
3. 配置文件
相同配置:
4. 日志
之后是qlora的训练,截个图: