bentoml / BentoVLLM

Self-host LLMs with vLLM and BentoML
72 stars 12 forks source link

No Swagger UI on localhost:3000 #22

Open FBR65 opened 7 months ago

FBR65 commented 7 months ago

Hi,

the completition works, but you can't reach Swagger UI on Port 3000.

(look: https://docs.bentoml.org/en/latest/use-cases/large-language-models/vllm.html -> The server is active at http://localhost:3000/. You can interact with it in different ways. -> Swagger UI -> Visit http://localhost:3000/, scroll down to Service APIs, and click Try it out. In the Request body box, enter your prompt and click Execute.)

You recieve:

{"detail":"Not Found"}

larme commented 7 months ago

@ITZRei the newest commit should solve this. Thanks for reporting!

FBR65 commented 7 months ago

Hi, I'm getting still

{"detail":"Not Found"}

when calling Swagger UI in Browser.

The curl works fine:

curl -X 'POST' 'http://localhost:3000/generate' -H 'accept: text/event-stream' -H 'Content-Type: application/json' -d '{ "user_prompt": "Albert Einstein (* 14. März 1879 in Ulm; † 18. April 1955 in Princeton, New Jersey) war ein schweizerisch-US-amerikanischer theoretischer Physiker deutscher Herkunft. Der Wissenschaftler jüdischer Abstammung hatte bis 1896 die württembergische Staatsbürgerschaft, ab 1901 die Schweizer Staatsbürgerschaft und ab 1940 zusätzlich die US-amerikanische. Preußischer Staatsangehöriger war er von 1914 bis 1934. Einstein gilt als einer der bedeutendsten Physiker der Wissenschaftsgeschichte und weltweit als einer der bekanntesten Wissenschaftler der Neuzeit. Seine Forschungen zur Struktur von Materie, Raum und Zeit sowie zum Wesen der Gravitation veränderten maßgeblich das zuvor geltende newtonsche Weltbild. 1999 wurde Albert Einstein in einer durch die Fachzeitschrift Physics World durchgeführten Umfrage unter führenden Physikern vor Isaac Newton, James Clerk Maxwell, Niels Bohr und Werner Heisenberg zum bedeutendsten Physiker aller Zeiten gewählt. Einsteins Hauptwerk, die Relativitätstheorie, machte ihn weltberühmt. Im Jahr 1905 erschien seine Arbeit mit dem Titel Zur Elektrodynamik bewegter Körper, deren Inhalt heute als Spezielle Relativitätstheorie bezeichnet wird. 1915 publizierte er die Allgemeine Relativitätstheorie. Auch zur Quantenphysik leistete er wesentliche Beiträge. „Für seine Verdienste um die Theoretische Physik, besonders für seine Entdeckung des Gesetzes des photoelektrischen Effekts“, erhielt er den Nobelpreis des Jahres 1921, der ihm 1922 überreicht wurde. Seine theoretischen Arbeiten spielten – im Gegensatz zur weit verbreiteten Meinung – beim Bau der Atombombe und der Entwicklung der Kernenergie nur eine indirekte Rolle.", "system_prompt":"Du bist ein Spezialist im Zusammenfassen von Texten. Fasse den nachfolgenden Text kurz zusemmen:", "max_tokens": 4096 }'


2024-03-28T06:18:10+0000 [WARNING] [cli] Converting 'VLLM' to lowercase: 'vllm'. 2024-03-28T06:18:18+0000 [WARNING] [cli] Converting 'VLLM' to lowercase: 'vllm'. 2024-03-28T06:18:20+0000 [INFO] [cli] Starting production HTTP BentoServer from "service2:VLLM" listening on http://localhost:3000 (Press CTRL+C to quit) WARNING 03-28 06:18:27 config.py:193] gptq quantization is not fully optimized yet. The speed can be slower than non-quantized models. INFO 03-28 06:18:27 llm_engine.py:87] Initializing an LLM engine with config: model='/home/reifr1z/models/leo-hessianai-70B-chat-GPTQ', tokenizer='/home/reifr1z/models/leo-hessianai-70B-chat-GPTQ', tokenizer_mode=auto, revision=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.float16, max_seq_len=8192, download_dir=None, load_format=auto, tensor_parallel_size=1, disable_custom_all_reduce=False, quantization=gptq, enforce_eager=False, kv_cache_dtype=auto, device_config=cuda, seed=0) Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. INFO 03-28 06:26:12 llm_engine.py:357] # GPU blocks: 6242, # CPU blocks: 819 INFO 03-28 06:26:14 model_runner.py:684] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI. INFO 03-28 06:26:14 model_runner.py:688] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing gpu_memory_utilization or enforcing eager mode. You can also reduce the max_num_seqs as needed to decrease memory usage. INFO 03-28 06:26:27 model_runner.py:756] Graph capturing finished in 13 secs. Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained. INFO 03-28 06:26:29 serving_chat.py:302] Using default chat template: INFO 03-28 06:26:29 serving_chat.py:302] {% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + ' INFO 03-28 06:26:29 serving_chat.py:302] ' + message['content'] + '<|im_end|>' + ' INFO 03-28 06:26:29 serving_chat.py:302] '}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant INFO 03-28 06:26:29 serving_chat.py:302] ' }}{% endif %} 2024-03-28T06:26:29+0000 [INFO] [entry_service:VLLM_OpenAI:1] 10.0.36.5:59724 (scheme=http,method=GET,path=/,type=,length=) (status=404,type=application/json,length=22) 0.357ms (trace=e3e70682c2094cac629f6fbed82c07cd,span=0a5d2f346baa9455,sampled=0,service.name=VLLM_OpenAI) 2024-03-28T06:26:47+0000 [INFO] [entry_service:VLLM_OpenAI:1] 10.0.36.5:60310 (scheme=http,method=GET,path=/,type=,length=) (status=404,type=application/json,length=22) 0.204ms (trace=d4713d60c8a70639eb1167b367a9c378,span=f7c1bd874da5e709,sampled=0,service.name=VLLM_OpenAI) 2024-03-28T06:26:47+0000 [INFO] [entry_service:VLLM_OpenAI:1] 10.0.36.5:60310 (scheme=http,method=GET,path=/favicon.ico,type=,length=) (status=404,type=application/json,length=22) 0.197ms (trace=23a7711a8133287637ebdcd9e87a1613,span=23c6612f48268673,sampled=0,service.name=VLLM_OpenAI) INFO 03-28 06:29:31 async_llm_engine.py:436] Received request 219e4d7d013c4894aeb620f34f4f9ee3: prompt: '[INST]\nDu bist ein Spezialist im Zusammenfassen von Texten. Fasse den nachfolgenden Text kurz zusemmen:\n\nAlbert Einstein (* 14. März 1879 in Ulm; † 18. April 1955 in Princeton, New Jersey) war ein schweizerisch-US-amerikanischer theoretischer Physiker deutscher Herkunft. Der Wissenschaftler jüdischer Abstammung hatte bis 1896 die württembergische Staatsbürgerschaft, ab 1901 die Schweizer Staatsbürgerschaft und ab 1940 zusätzlich die US-amerikanische. Preußischer Staatsangehöriger war er von 1914 bis 1934. Einstein gilt als einer der bedeutendsten Physiker der Wissenschaftsgeschichte und weltweit als einer der bekanntesten Wissenschaftler der Neuzeit. Seine Forschungen zur Struktur von Materie, Raum und Zeit sowie zum Wesen der Gravitation veränderten maßgeblich das zuvor geltende newtonsche Weltbild. 1999 wurde Albert Einstein in einer durch die Fachzeitschrift Physics World durchgeführten Umfrage unter führenden Physikern vor Isaac Newton, James Clerk Maxwell, Niels Bohr und Werner Heisenberg zum bedeutendsten Physiker aller Zeiten gewählt. Einsteins Hauptwerk, die Relativitätstheorie, machte ihn weltberühmt. Im Jahr 1905 erschien seine Arbeit mit dem Titel Zur Elektrodynamik bewegter Körper, deren Inhalt heute als Spezielle Relativitätstheorie bezeichnet wird. 1915 publizierte er die Allgemeine Relativitätstheorie. Auch zur Quantenphysik leistete er wesentliche Beiträge. „Für seine Verdienste um die Theoretische Physik, besonders für seine Entdeckung des Gesetzes des photoelektrischen Effekts“, erhielt er den Nobelpreis des Jahres 1921, der ihm 1922 überreicht wurde. Seine theoretischen Arbeiten spielten – im Gegensatz zur weit verbreiteten Meinung – beim Bau der Atombombe und der Entwicklung der Kernenergie nur eine indirekte Rolle. [/INST] ', prefix_pos: None,sampling_params: SamplingParams(n=1, best_of=1, presence_penalty=0.0, frequency_penalty=0.0, repetition_penalty=1.0, temperature=1.0, top_p=1.0, top_k=-1, min_p=0.0, seed=None, use_beam_search=False, length_penalty=1.0, early_stopping=False, stop=[], stop_token_ids=[], include_stop_str_in_output=False, ignore_eos=False, max_tokens=4096, logprobs=None, prompt_logprobs=None, skip_special_tokens=True, spaces_between_special_tokens=True), prompt_token_ids: None, lora_request: None. INFO 03-28 06:29:31 metrics.py:213] Avg prompt throughput: 2.8 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.5%, CPU KV cache usage: 0.0% INFO 03-28 06:29:34 async_llm_engine.py:110] Finished request 219e4d7d013c4894aeb620f34f4f9ee3. 2024-03-28T06:29:34+0000 [INFO] [entry_service:VLLM_OpenAI:1] 127.0.0.1:58648 (scheme=http,method=POST,path=/generate,type=application/json,length=1857) (status=200,type=text/event-stream; charset=utf-8,length=) 3498.897ms (trace=88561712e8e5216afcbd04c340212ef7,span=b4862b21fb97d435,sampled=0,service.name=VLLM_OpenAI)

larme commented 7 months ago

@ITZRei That's strange. May I ask which model are you using and what's the BentoML version? In my test the swagger page is displayed correctly.

FBR65 commented 7 months ago

Hi, it‘s TheBloke/leo-hessianai-70B-GPTQ

larme commented 7 months ago

Are you using the latest codes in main branch?

FBR65 commented 7 months ago

Hi, sorry for the delay. I'm using Version 1.2.9, that should be the latest.

I've attached the Code I'm using.

service.txt