RUCAIBox / TextBox

TextBox 2.0 is a text generation library with pre-trained language models
https://github.com/RUCAIBox/TextBox
MIT License
1.07k stars 117 forks source link

什么时候会出一个详细的tutorial,现在的文档有点乱,示例也不全 #320

Closed zhihao-chen closed 1 year ago

StevenTang1998 commented 1 year ago

你好,我们已经重整了我们的指南,基本训练预训练每个模型的指南都分布在独立的页面里面。 有什么不清楚的可以直接提问。

zhihao-chen commented 1 year ago

嗯,我想问finetune task-oriented task,数据格式应该是怎样的?还有配置了config文件,还需要配置model和dataset下的yaml文件吗

StevenTang1998 commented 1 year ago

你不需要处理数据格式,直接在https://huggingface.co/RUCAIBox下载即可,也不需要调整yaml

zhihao-chen commented 1 year ago

我是指构建自己的数据集应该是什么格式,已经配置了config文件还需不需在配置dataset下面配置yaml

StevenTang1998 commented 1 year ago

https://github.com/RUCAIBox/TextBox/blob/2.0.0/asset/dataset.md#new-dataset 如果需要新加数据集,可以按照里面的指导,纯文本一行一条就行

leekum2018 commented 1 year ago

请问使用huggingface的dataset应该怎么加载RUCAIBox/StyleTransfer里面的GYAFC数据集,尝试使用下面的代码但不成功。 dataset = load_dataset("RUCAIBox/StyleTransfer") 提示如下, FileNotFoundError: Couldn't find a dataset script at /data/hguo/likun/wow_fid/RUCAIBox/Simplification/Simplification.py or any data file in the same directory. Couldn't find 'RUCAIBox/Simplification' on the Hugging Face Hub either: FileNotFoundError: Unable to resolve any data file that matches ['**'] in dataset repository RUCAIBox/Simplification with any supported extension 期待你的回复,谢谢!

StevenTang1998 commented 1 year ago

抱歉,我们不支持使用huggingface的load_dataset加载我们的数据集,我们的数据集都是text2text格式的,建议使用textbox加载训练

StevenTang1998 commented 1 year ago

我先关闭这个issue了,如果还有问题欢迎继续提问