Closed 19245222 closed 1 year ago
您好。如题。我留意到大部分的数据集都是这种JSON格式的,比如: "question": "......." "answer": "........."
但如果我的数据集是一个HTML格式的文件呢? 比如:http://app.0359tv.com/agreement/privacy/policy.html
理想的情况:
但具体用到哪个工具,我不知道,恳请您指导下。如果您有不一样的思路,请您指教,谢谢!
最简单的方法就是写个脚本用beautiful soup把html里的文本扒下来存到questions.txt,然后你手动加上你的问题,只不过questions.txt没考虑换行,可能要改一下
thank you!
您好。如题。我留意到大部分的数据集都是这种JSON格式的,比如: "question": "......." "answer": "........."
但如果我的数据集是一个HTML格式的文件呢? 比如:http://app.0359tv.com/agreement/privacy/policy.html
理想的情况:
但具体用到哪个工具,我不知道,恳请您指导下。如果您有不一样的思路,请您指教,谢谢!