IDEA-CCNL / Fengshenbang-LM

Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文AIGC和认知智能的基础设施。
Apache License 2.0
4k stars 375 forks source link

Erlangshen-DeBERTa-v2-97M-CWS-Chinese无法加载tokenizer #409

Open JaheimLee opened 1 year ago

JaheimLee commented 1 year ago

https://huggingface.co/IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-CWS-Chinese/discussions/1

use_fast为False也不行

OSError: Can't load tokenizer for '/data/pretrained_models/Erlangshen-DeBERTa-v2-97M-CWS-Chinese/'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwise, make sure '/data/pretrained_models/Erlangshen-DeBERTa-v2-97M-CWS-Chinese/' is the correct path to a directory containing all relevant files for a DebertaV2Tokenizer tokenizer.
sunxiaoyu12 commented 1 year ago

你把本地的文件缓存删掉,重新下载,或者下载到本地

JaheimLee commented 1 year ago

你把本地的文件缓存删掉,重新下载,或者下载到本地

我这OSError不就是下载到本地产生的吗

sunxiaoyu12 commented 1 year ago

你把本地的文件缓存删掉,重新下载,或者下载到本地

我这OSError不就是下载到本地产生的吗

如果路径写对了,可以看看文件夹下的权重文件是不是下对了,大小一致吗?

JaheimLee commented 1 year ago

你把本地的文件缓存删掉,重新下载,或者下载到本地

我这OSError不就是下载到本地产生的吗

如果路径写对了,可以看看文件夹下的权重文件是不是下对了,大小一致吗?

是不是你们hub上少传文件了,我看Erlangshen-DeBERTa-v2-97M-CWS-ChineseErlangshen-DeBERTa-v2-97M-Chinese少了两个tokenizer配置文件。 而且,这俩vocab好像是一样的啊,那为啥说Erlangshen-DeBERTa-v2-97M-CWS-Chinese是基于中文分词的啊?

JaheimLee commented 11 months ago

这个项目是不是没人维护了