利用finetune_cosmopedia.sh脚本进行继续预训练中的数据集如何构建

TencentARC / LLaMA-Pro

[ACL 2024] Progressive LLaMA with Block Expansion.

https://tencentarc.github.io/LLaMA-Pro/

Apache License 2.0

482 stars 35 forks source link

Open RuipingWang1986 opened 6 months ago

RuipingWang1986 commented 6 months ago

您好，目前我正在用finetune_cosmopedia.sh进行继续预训练，用HuggingFaceTB上的数据集可以实现继续预训练，但是我目前想要使用自己的数据集，我的数据集格式是txt，我想知道有没有办法将我们自己的数据转变成可以用于继续预训练的方法，或者有没有类似的工具呢，谢谢。

hills-code commented 6 months ago

您可以参考huggingface dataset的官方文档读入txt文件：https://huggingface.co/docs/datasets/nlp_load

RuipingWang1986 commented 6 months ago

好的，我先试试看，感谢回复