THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型
Apache License 2.0
5.3k stars 437 forks source link

finetune_demo目录下lora.yaml种train.jsonl文件在哪? #540

Closed linxi1158 closed 1 month ago

linxi1158 commented 2 months ago

System Info / 系統信息

Who can help? / 谁可以帮助到您?

@wwewwt @Sengxian @davidlvxin @cenyk1230 @qq332982511

Information / 问题信息

Reproduction / 复现过程

CleanShot 2024-09-04 at 16 10 38 无法找到对应的train.jsonl、dev.jsonl?

Expected behavior / 期待表现

补充对应文件

sixsixcoder commented 2 months ago

lora.yaml文件位置在GLM-4/finetune_demo/configs/lora.yaml train.jsonl、dev.jsonl文件需要自己准备,并修改lora.yaml中的data_config为您自己的训练集和测试集路径 数据集格式和准备方法请参照:https://zhipu-ai.feishu.cn/wiki/L1jpwBEqCiHocmkT3VzcQv5Znrg

zhipuch commented 2 months ago

这是自己准备的数据文件

123yxh commented 2 months ago

能给一个具体的数据集准备例子吗?参照finetune_demo里面的readme准备的数据集格式不对,而且这里说是json,但是我看配置文件中的是jsonl?:```json { "messages": [ { "role": "user", "content": "类型#裤材质#牛仔布风格#性感" }, { "role": "assistant", "content": "3x1的这款牛仔裤采用浅白的牛仔面料为裤身材质,其柔然的手感和细腻的质地,在穿着舒适的同时,透露着清纯甜美的个性气质。除此之外,流畅的裤身剪裁将性感的腿部曲线彰显的淋漓尽致,不失为一款随性出街的必备单品。" } ] }

zhipuch commented 1 month ago

能给一个具体的数据集准备例子吗?参照finetune_demo里面的readme准备的数据集格式不对,而且这里说是json,但是我看配置文件中的是jsonl?:```json { "messages": [ { "role": "user", "content": "类型#裤_材质#牛仔布_风格#性感" }, { "role": "assistant", "content": "3x1的这款牛仔裤采用浅白的牛仔面料为裤身材质,其柔然的手感和细腻的质地,在穿着舒适的同时,透露着清纯甜美的个性气质。除此之外,流畅的裤身剪裁将性感的腿部曲线彰显的淋漓尽致,不失为一款随性出街的必备单品。" } ] }

你的格式没什么问题,转成jsonl格式应该没问题