hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码
1.13k stars 95 forks source link

数据集错误集锦 #40

Open MianWang123 opened 1 year ago

MianWang123 commented 1 year ago

感谢Contributors的无私奉献~ 今天下载数据集翻了翻,发现两个小问题!我觉得可以弄一层楼,专门给大家反馈英-中转换过程的错误,这样也许能更好的提升质量~ :p

alpaca_data-6382-9407-(jlh)中文-已完成.json { "instruction": "将给定的字符串更改为大写。", "input": "你好世界。", "output": "你好世界。" }, { "instruction": "找出给定单词的押韵词。", "input": "有", "output": "垫子、老鼠、蝙蝠、床、村庄、聊天。" }, 第一个问题,字符串大小写应该是针对英文,中文不存在这个转换? 第二个问题,押韵的词是不是英文原本押韵,但是翻译成中文后并不押韵?输入有,应该输出ou的韵对应词

MianWang123 commented 1 year ago

补充:所有问题中包含“韵”相关知识,答案都不太准确

MianWang123 commented 1 year ago

alpaca_data-0-3252-中文-已完成.json { "instruction": "解释“可能”和“可能”这两个词的区别。", "input": "", "output": "“可能”用于表示某事发生或为真的可能性更高。它比“可能”更确定。另一方面,“可能”用于表达某事发生或为真的可能性较低。它不如“可能”那么确定。" }, { "instruction": "将以下陈述翻译成日语", "input": "她是一位优秀的老师", "output": "她是一位优秀的老师。" }, { "instruction": "在下面的句子中添加冠词“the”。", "input": "说话的人", "output": "说话的人。" },

hikariming commented 1 year ago

收到啦,因为之前我偷懒,有些地方看得太快了....我后面最近在满满看把问题都调一下,也欢迎提pr啊~