getumbrel / llama-gpt

A self-hosted, offline, ChatGPT-like chatbot. Powered by Llama 2. 100% private, with no data leaving your device. New: Code Llama support!
https://apps.umbrel.com/app/llama-gpt
MIT License
10.83k stars 700 forks source link

Error when running 7B model on WSL2 & Win11 #117

Open TimyIsCool opened 1 year ago

TimyIsCool commented 1 year ago

So Im trying to run the llamagpt but when I do ./run.sh --model 7b --with-cuda I get this error

ggml_init_cublas: found 1 CUDA devices: llama-gpt-llama-gpt-api-cuda-ggml-1 | Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6 llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available... llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available... llama-gpt-llama-gpt-api-cuda-ggml-1 | /usr/local/lib/python3.10/dist-packages/pydantic/_internal/_fields.py:128: UserWarning: Field "modelalias" has conflict with protected namespace "model". llama-gpt-llama-gpt-api-cuda-ggml-1 | llama-gpt-llama-gpt-api-cuda-ggml-1 | You may be able to resolve this warning by setting model_config['protected_namespaces'] = ('settings_',). llama-gpt-llama-gpt-api-cuda-ggml-1 | warnings.warn( llama-gpt-llama-gpt-api-cuda-ggml-1 | llama.cpp: loading model from /models/llama-2-7b-chat.bin llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: format = ggjt v3 (latest) llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_vocab = 32000 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_ctx = 4096 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_embd = 4096 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_mult = 5504 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_head = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_head_kv = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_layer = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_rot = 128 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_gqa = 1 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: rnorm_eps = 5.0e-06 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_ff = 11008 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: freq_base = 10000.0 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: freq_scale = 1 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: ftype = 2 (mostly Q4_0) llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: model size = 7B llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: ggml ctx size = 0.01 MB llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: using CUDA for GPU acceleration llama-gpt-llama-gpt-api-cuda-ggml-1 | error loading model: llama.cpp: tensor 'layers.4.ffn_norm.weight' is missing from model llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_load_model_from_file: failed to load model llama-gpt-llama-gpt-api-cuda-ggml-1 | Traceback (most recent call last): llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/lib/python3.10/runpy.py", line 196, in _run_module_as_main llama-gpt-llama-gpt-api-cuda-ggml-1 | return _run_code(code, main_globals, None, llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/lib/python3.10/runpy.py", line 86, in _run_code llama-gpt-llama-gpt-api-cuda-ggml-1 | exec(code, run_globals) llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/server/main.py", line 46, in llama-gpt-llama-gpt-api-cuda-ggml-1 | app = create_app(settings=settings) llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/server/app.py", line 317, in create_app llama-gpt-llama-gpt-api-cuda-ggml-1 | llama = llama_cpp.Llama( llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/llama.py", line 328, in init llama-gpt-llama-gpt-api-cuda-ggml-1 | assert self.model is not None llama-gpt-llama-gpt-api-cuda-ggml-1 | AssertionError llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available...

TimyIsCool commented 1 year ago

So doing https://github.com/getumbrel/llama-gpt/issues/98#issuecomment-1715494487 then also clearing build cache has seemed to have fixed it