Open TimyIsCool opened 1 year ago
So Im trying to run the llamagpt but when I do ./run.sh --model 7b --with-cuda I get this error
ggml_init_cublas: found 1 CUDA devices: llama-gpt-llama-gpt-api-cuda-ggml-1 | Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6 llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available... llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available... llama-gpt-llama-gpt-api-cuda-ggml-1 | /usr/local/lib/python3.10/dist-packages/pydantic/_internal/_fields.py:128: UserWarning: Field "modelalias" has conflict with protected namespace "model". llama-gpt-llama-gpt-api-cuda-ggml-1 | llama-gpt-llama-gpt-api-cuda-ggml-1 | You may be able to resolve this warning by setting model_config['protected_namespaces'] = ('settings_',). llama-gpt-llama-gpt-api-cuda-ggml-1 | warnings.warn( llama-gpt-llama-gpt-api-cuda-ggml-1 | llama.cpp: loading model from /models/llama-2-7b-chat.bin llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: format = ggjt v3 (latest) llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_vocab = 32000 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_ctx = 4096 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_embd = 4096 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_mult = 5504 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_head = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_head_kv = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_layer = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_rot = 128 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_gqa = 1 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: rnorm_eps = 5.0e-06 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_ff = 11008 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: freq_base = 10000.0 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: freq_scale = 1 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: ftype = 2 (mostly Q4_0) llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: model size = 7B llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: ggml ctx size = 0.01 MB llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: using CUDA for GPU acceleration llama-gpt-llama-gpt-api-cuda-ggml-1 | error loading model: llama.cpp: tensor 'layers.4.ffn_norm.weight' is missing from model llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_load_model_from_file: failed to load model llama-gpt-llama-gpt-api-cuda-ggml-1 | Traceback (most recent call last): llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/lib/python3.10/runpy.py", line 196, in _run_module_as_main llama-gpt-llama-gpt-api-cuda-ggml-1 | return _run_code(code, main_globals, None, llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/lib/python3.10/runpy.py", line 86, in _run_code llama-gpt-llama-gpt-api-cuda-ggml-1 | exec(code, run_globals) llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/server/main.py", line 46, in llama-gpt-llama-gpt-api-cuda-ggml-1 | app = create_app(settings=settings) llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/server/app.py", line 317, in create_app llama-gpt-llama-gpt-api-cuda-ggml-1 | llama = llama_cpp.Llama( llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/llama.py", line 328, in init llama-gpt-llama-gpt-api-cuda-ggml-1 | assert self.model is not None llama-gpt-llama-gpt-api-cuda-ggml-1 | AssertionError llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available...
model_config['protected_namespaces'] = ('settings_',)
So doing https://github.com/getumbrel/llama-gpt/issues/98#issuecomment-1715494487 then also clearing build cache has seemed to have fixed it
So Im trying to run the llamagpt but when I do ./run.sh --model 7b --with-cuda I get this error
ggml_init_cublas: found 1 CUDA devices: llama-gpt-llama-gpt-api-cuda-ggml-1 | Device 0: NVIDIA GeForce RTX 3060, compute capability 8.6 llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available... llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available... llama-gpt-llama-gpt-api-cuda-ggml-1 | /usr/local/lib/python3.10/dist-packages/pydantic/_internal/_fields.py:128: UserWarning: Field "modelalias" has conflict with protected namespace "model". llama-gpt-llama-gpt-api-cuda-ggml-1 | llama-gpt-llama-gpt-api-cuda-ggml-1 | You may be able to resolve this warning by setting
llama-gpt-llama-gpt-api-cuda-ggml-1 | app = create_app(settings=settings)
llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/server/app.py", line 317, in create_app
llama-gpt-llama-gpt-api-cuda-ggml-1 | llama = llama_cpp.Llama(
llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/llama.py", line 328, in init
llama-gpt-llama-gpt-api-cuda-ggml-1 | assert self.model is not None
llama-gpt-llama-gpt-api-cuda-ggml-1 | AssertionError
llama-gpt-llama-gpt-ui-1 | [INFO wait] Host [llama-gpt-api-cuda-ggml:8000] not yet available...
model_config['protected_namespaces'] = ('settings_',)
. llama-gpt-llama-gpt-api-cuda-ggml-1 | warnings.warn( llama-gpt-llama-gpt-api-cuda-ggml-1 | llama.cpp: loading model from /models/llama-2-7b-chat.bin llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: format = ggjt v3 (latest) llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_vocab = 32000 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_ctx = 4096 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_embd = 4096 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_mult = 5504 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_head = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_head_kv = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_layer = 32 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_rot = 128 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_gqa = 1 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: rnorm_eps = 5.0e-06 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: n_ff = 11008 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: freq_base = 10000.0 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: freq_scale = 1 llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: ftype = 2 (mostly Q4_0) llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: model size = 7B llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: ggml ctx size = 0.01 MB llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_model_load_internal: using CUDA for GPU acceleration llama-gpt-llama-gpt-api-cuda-ggml-1 | error loading model: llama.cpp: tensor 'layers.4.ffn_norm.weight' is missing from model llama-gpt-llama-gpt-api-cuda-ggml-1 | llama_load_model_from_file: failed to load model llama-gpt-llama-gpt-api-cuda-ggml-1 | Traceback (most recent call last): llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/lib/python3.10/runpy.py", line 196, in _run_module_as_main llama-gpt-llama-gpt-api-cuda-ggml-1 | return _run_code(code, main_globals, None, llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/lib/python3.10/runpy.py", line 86, in _run_code llama-gpt-llama-gpt-api-cuda-ggml-1 | exec(code, run_globals) llama-gpt-llama-gpt-api-cuda-ggml-1 | File "/usr/local/lib/python3.10/dist-packages/llama_cpp/server/main.py", line 46, in