Closed zhihao-chen closed 1 year ago
嗯,我想问finetune task-oriented task,数据格式应该是怎样的?还有配置了config文件,还需要配置model和dataset下的yaml文件吗
你不需要处理数据格式,直接在https://huggingface.co/RUCAIBox下载即可,也不需要调整yaml
我是指构建自己的数据集应该是什么格式,已经配置了config文件还需不需在配置dataset下面配置yaml
https://github.com/RUCAIBox/TextBox/blob/2.0.0/asset/dataset.md#new-dataset 如果需要新加数据集,可以按照里面的指导,纯文本一行一条就行
请问使用huggingface的dataset应该怎么加载RUCAIBox/StyleTransfer里面的GYAFC数据集,尝试使用下面的代码但不成功。
dataset = load_dataset("RUCAIBox/StyleTransfer")
提示如下,
FileNotFoundError: Couldn't find a dataset script at /data/hguo/likun/wow_fid/RUCAIBox/Simplification/Simplification.py or any data file in the same directory. Couldn't find 'RUCAIBox/Simplification' on the Hugging Face Hub either: FileNotFoundError: Unable to resolve any data file that matches ['**'] in dataset repository RUCAIBox/Simplification with any supported extension
期待你的回复,谢谢!
抱歉,我们不支持使用huggingface的load_dataset加载我们的数据集,我们的数据集都是text2text格式的,建议使用textbox加载训练
我先关闭这个issue了,如果还有问题欢迎继续提问
你好,我们已经重整了我们的指南,基本训练,预训练,每个模型的指南都分布在独立的页面里面。 有什么不清楚的可以直接提问。