finetune_demo目录下lora.yaml种train.jsonl文件在哪？

THUDM / GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

Apache License 2.0

5.3k stars 437 forks source link

finetune_demo目录下lora.yaml种train.jsonl文件在哪？ #540

Closed linxi1158 closed 1 month ago

linxi1158 commented 2 months ago

System Info / 系統信息

无

Who can help? / 谁可以帮助到您？

@wwewwt @Sengxian @davidlvxin @cenyk1230 @qq332982511

Information / 问题信息

[X] The official example scripts / 官方的示例脚本
[ ] My own modified scripts / 我自己修改的脚本和任务

Reproduction / 复现过程

CleanShot 2024-09-04 at 16 10 38 无法找到对应的train.jsonl、dev.jsonl?

Expected behavior / 期待表现

补充对应文件

sixsixcoder commented 2 months ago

lora.yaml文件位置在GLM-4/finetune_demo/configs/lora.yaml train.jsonl、dev.jsonl文件需要自己准备，并修改lora.yaml中的data_config为您自己的训练集和测试集路径数据集格式和准备方法请参照：https://zhipu-ai.feishu.cn/wiki/L1jpwBEqCiHocmkT3VzcQv5Znrg

zhipuch commented 2 months ago

这是自己准备的数据文件

123yxh commented 2 months ago

能给一个具体的数据集准备例子吗？参照finetune_demo里面的readme准备的数据集格式不对，而且这里说是json，但是我看配置文件中的是jsonl？：```json { "messages": [ { "role": "user", "content": "类型#裤材质#牛仔布风格#性感" }, { "role": "assistant", "content": "3x1的这款牛仔裤采用浅白的牛仔面料为裤身材质，其柔然的手感和细腻的质地，在穿着舒适的同时，透露着清纯甜美的个性气质。除此之外，流畅的裤身剪裁将性感的腿部曲线彰显的淋漓尽致，不失为一款随性出街的必备单品。" } ] }

zhipuch commented 1 month ago

能给一个具体的数据集准备例子吗？参照finetune_demo里面的readme准备的数据集格式不对，而且这里说是json，但是我看配置文件中的是jsonl？：```json { "messages": [ { "role": "user", "content": "类型#裤_材质#牛仔布_风格#性感" }, { "role": "assistant", "content": "3x1的这款牛仔裤采用浅白的牛仔面料为裤身材质，其柔然的手感和细腻的质地，在穿着舒适的同时，透露着清纯甜美的个性气质。除此之外，流畅的裤身剪裁将性感的腿部曲线彰显的淋漓尽致，不失为一款随性出街的必备单品。" } ] }

你的格式没什么问题，转成jsonl格式应该没问题