huang1332 / finetune_dataset_maker

为ChatGLM设计的微调数据集生成工具,速来制作自己的猫娘。
MIT License
594 stars 71 forks source link

训练相关的问题:我的数据集是PDF,DOCX,HTML的格式,请问如何生成JSON格式的数据集? #4

Closed 19245222 closed 1 year ago

19245222 commented 1 year ago

您好。如题。我留意到大部分的数据集都是这种JSON格式的,比如: "question": "......." "answer": "........."

但如果我的数据集是一个HTML格式的文件呢? 比如:http://app.0359tv.com/agreement/privacy/policy.html

理想的情况:

  1. question 填 HTML的文字 和 我的问题
  2. answer 填 我预设的答案
  3. 然后喂给 CHATGLM-Tuning 这个项目去finetune,最后ChatGLM模型得到增强。

但具体用到哪个工具,我不知道,恳请您指导下。如果您有不一样的思路,请您指教,谢谢!

huang1332 commented 1 year ago

最简单的方法就是写个脚本用beautiful soup把html里的文本扒下来存到questions.txt,然后你手动加上你的问题,只不过questions.txt没考虑换行,可能要改一下

19245222 commented 1 year ago

thank you!