Open RuipingWang1986 opened 6 months ago
您好,目前我正在用finetune_cosmopedia.sh进行继续预训练,用HuggingFaceTB上的数据集可以实现继续预训练,但是我目前想要使用自己的数据集,我的数据集格式是txt,我想知道有没有办法将我们自己的数据转变成可以用于继续预训练的方法,或者有没有类似的工具呢,谢谢。
您可以参考huggingface dataset的官方文档读入txt文件:https://huggingface.co/docs/datasets/nlp_load
好的,我先试试看,感谢回复
您好,目前我正在用finetune_cosmopedia.sh进行继续预训练,用HuggingFaceTB上的数据集可以实现继续预训练,但是我目前想要使用自己的数据集,我的数据集格式是txt,我想知道有没有办法将我们自己的数据转变成可以用于继续预训练的方法,或者有没有类似的工具呢,谢谢。