LlamaFamily / Llama-Chinese

Llama中文社区,Llama3在线体验和微调模型已开放,实时汇总最新Llama3学习资料,已将所有代码更新适配Llama3,构建最好的中文Llama大模型,完全开源可商用
https://llama.family
14.01k stars 1.26k forks source link

请问有好的把长文本数据切分成对话数据的方式吗? #246

Open Junglesl opened 1 year ago

Junglesl commented 1 year ago

我现在有很多文本数据,word和pdf形式,我想把它处理成对话形式的可以输入模型训练的数据,请问有好的处理方式吗?只能人工根据对话逻辑一个个处理吗?

微信图片_20231024165928 微信图片_20231024165937 微信图片_20231024165941 微信图片_20231024165945