juncongmoo / pyllama

LLaMA: Open and Efficient Foundation Language Models
GNU General Public License v3.0
2.8k stars 312 forks source link

Quantize issue #92

Open ZenekZombie opened 1 year ago

ZenekZombie commented 1 year ago

slenarto@DESKTOP-FMPA9NQ:~/ai/pyllama-main/pyllama-main$ python3 -m llama.llama_quant /home/slenarto/ai/pyllama-main/pyllama-main/converted_meta/llama-13b c4 --wbits 4 --groupsize 128 Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 41/41 [00:51<00:00, 1.27s/it] ╭─────────────────────────────── Traceback (most recent call last) ────────────────────────────────╮ │ /home/slenarto/miniconda3/envs/gptq/lib/python3.9/runpy.py:197 in _run_module_as_main │ │ │ │ 194 │ main_globals = sys.modules["main"].dict │ │ 195 │ if alter_argv: │ │ 196 │ │ sys.argv[0] = mod_spec.origin │ │ ❱ 197 │ return _run_code(code, main_globals, None, │ │ 198 │ │ │ │ │ "main", mod_spec) │ │ 199 │ │ 200 def run_module(mod_name, init_globals=None, │ │ │ │ /home/slenarto/miniconda3/envs/gptq/lib/python3.9/runpy.py:87 in _run_code │ │ │ │ 84 │ │ │ │ │ loader = loader, │ │ 85 │ │ │ │ │ package = pkg_name, │ │ 86 │ │ │ │ │ spec = mod_spec) │ │ ❱ 87 │ exec(code, run_globals) │ │ 88 │ return run_globals │ │ 89 │ │ 90 def _run_module_code(code, init_globals=None, │ │ │ │ /home/slenarto/ai/pyllama-main/pyllama-main/llama/llama_quant.py:477 in │ │ │ │ 474 │ │ 475 │ │ 476 if name == "main": │ │ ❱ 477 │ run() │ │ 478 │ │ │ │ /home/slenarto/ai/pyllama-main/pyllama-main/llama/llama_quant.py:436 in run │ │ │ │ 433 │ else: │ │ 434 │ │ dev = torch.device("cpu") │ │ 435 │ │ │ ❱ 436 │ tokenizer = LLaMATokenizer.from_pretrained( │ │ 437 │ │ args.model, add_eos_token=True │ │ 438 │ ) │ │ 439 │ dataloader, testloader = get_loaders( │ │ │ │ /home/slenarto/miniconda3/envs/gptq/lib/python3.9/site-packages/transformers/tokenizationutils │ │ base.py:1804 in from_pretrained │ │ │ │ 1801 │ │ │ else: │ │ 1802 │ │ │ │ logger.info(f"loading file {file_path} from cache at {resolved_vocab_fil │ │ 1803 │ │ │ │ ❱ 1804 │ │ return cls._from_pretrained( │ │ 1805 │ │ │ resolved_vocab_files, │ │ 1806 │ │ │ pretrained_model_name_or_path, │ │ 1807 │ │ │ init_configuration, │ │ │ │ /home/slenarto/miniconda3/envs/gptq/lib/python3.9/site-packages/transformers/tokenizationutils │ │ base.py:1958 in _from_pretrained │ │ │ │ 1955 │ │ │ │ 1956 │ │ # Instantiate tokenizer. │ │ 1957 │ │ try: │ │ ❱ 1958 │ │ │ tokenizer = cls(*init_inputs, init_kwargs) │ │ 1959 │ │ except OSError: │ │ 1960 │ │ │ raise OSError( │ │ 1961 │ │ │ │ "Unable to load vocabulary from file. " │ │ │ │ /home/slenarto/ai/pyllama-main/pyllama-main/llama/hf/tokenization_llama.py:71 in init │ │ │ │ 68 │ │ self.add_bos_token = add_bos_token │ │ 69 │ │ self.add_eos_token = add_eos_token │ │ 70 │ │ self.sp_model = spm.SentencePieceProcessor(self.sp_model_kwargs) │ │ ❱ 71 │ │ self.sp_model.Load(vocab_file) │ │ 72 │ │ │ │ 73 │ │ """ Initialisation""" │ │ 74 │ │ │ │ /home/slenarto/miniconda3/envs/gptq/lib/python3.9/site-packages/sentencepiece/init.py:905 in │ │ Load │ │ │ │ 902 │ │ raise RuntimeError('model_file and model_proto must be exclusive.') │ │ 903 │ if model_proto: │ │ 904 │ │ return self.LoadFromSerializedProto(model_proto) │ │ ❱ 905 │ return self.LoadFromFile(model_file) │ │ 906 │ │ 907 │ │ 908 # Register SentencePieceProcessor in _sentencepiece: │ │ │ │ /home/slenarto/miniconda3/envs/gptq/lib/python3.9/site-packages/sentencepiece/init.py:310 in │ │ LoadFromFile │ │ │ │ 307 │ │ return _sentencepiece.SentencePieceProcessor_serialized_model_proto(self) │ │ 308 │ │ │ 309 │ def LoadFromFile(self, arg): │ │ ❱ 310 │ │ return _sentencepiece.SentencePieceProcessor_LoadFromFile(self, arg) │ │ 311 │ │ │ 312 │ def _EncodeAsIds(self, text, enable_sampling, nbest_size, alpha, add_bos, add_eos, r │ │ 313 │ │ return _sentencepiece.SentencePieceProcessor__EncodeAsIds(self, text, enable_sam │ ╰──────────────────────────────────────────────────────────────────────────────────────────────────╯ RuntimeError: Internal: src/sentencepiece_processor.cc(1101) [model_proto->ParseFromArray(serialized.data(), serialized.size())]

can anyone help?