Closed yanxp closed 8 months ago
像是cache生成有问题,删掉cache重新生成一下试试
像是cache生成有问题,删掉cache重新生成一下试试
删了重试,还是这个错误
不是很确定问题所在,代码在生成cache的过程中可能因为内存不足而程序失败的问题,重提就能解决,但是生成cache后训练中出现问题还没遇到
你实际输入的tokenizer不是我们发布的tokenizer,然后你的tokenizer.model中没有pad_token这个选项,所以会出现这个错误。
I think we can add the following code block to sft trainer.
DEFAULT_PAD_TOKEN = "<pad>"
if tokenizer.pad_token is None:
print(f"Adding pad token {DEFAULT_PAD_TOKEN}")
tokenizer.add_special_tokens(dict(pad_token=DEFAULT_PAD_TOKEN))
I have created pr for this issue.
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.
你实际输入的tokenizer不是我们发布的tokenizer,然后你的tokenizer.model中没有pad_token这个选项,所以会出现这个错误。
自己训练词汇表时,怎么加入这个pad_token?
你实际输入的tokenizer不是我们发布的tokenizer,然后你的tokenizer.model中没有pad_token这个选项,所以会出现这个错误。
我的打印后有如下:
Generate config GenerationConfig {
"bos_token_id": 1,
"do_sample": true,
"eos_token_id": 2,
"max_length": 4096,
"pad_token_id": 0,
"temperature": 0.6,
"top_p": 0.9
}
但是也出现问题了;
提交前必须检查以下项目
问题类型
其他问题
基础模型
Chinese-Alpaca-2 (7B/13B)
操作系统
Linux
详细描述问题
依赖情况(代码类问题务必提供)
运行日志或截图