할당받은 rebellions 자원 ssh로 접속
$ cd malhaedgh/malhaedgh_backend
Vector store 파일 추가될 때마다 아래 명령어 수행
$ python3 create_vector_store.py \
--vector_store_dir ./rag_data \
--compiled_embedding_model bge-m3 \
--load_from_storage False \
--chunk_size 1024 \
--chunk_overlap_size 100
추론서버 실행
$ python3 -m vllm.entrypoints.openai.api_server \
--model rbln_vllm_llama-3-Korean-Bllossom-8B_npu8_batch4_max8192 \
--compiled-model-dir rbln_vllm_llama-3-Korean-Bllossom-8B_npu8_batch4_max8192 \
--dtype auto \
--device rbln \
--max-num-seqs 4 \
--max-num-batched-tokens 8192 \
--max-model-len 8192 \
--block-size 8192 \
--api-key 1234 \
--port 8000
ATOM개수 4개 일 경우 : rbln_vllm_llama-3-Korean-Bllossom-8B_npu4_batch4_max4096
ATOM개수 8개 일 경우 : rbln_vllm_llama-3-Korean-Bllossom-8B_npu8_batch4_max8192
$ streamlit run ChatServer.py
streamlit 채팅 서버 실행
$ uvicorn main:app --host 0.0.0.0 --port 9000 --reload
fastapi 서비스 서버 실행
Prometheus2 평가 추론 서버 실행
$ python3 -m vllm.entrypoints.openai.api_server \
--model rbln_vllm_prometheus-7b-v2.0_npu2_batch2_max4096 \
--compiled-model-dir rbln_vllm_prometheus-7b-v2.0_npu2_batch2_max4096 \
--dtype auto \
--device rbln \
--max-num-seqs 2 \
--max-num-batched-tokens 4096 \
--max-model-len 4096 \
--block-size 4096 \
--api-key 5678 \
--port 8001
$ python3 EvalPrometheus.py
프로메테우스 평가 실행
POSTMAN으로 결과 확인 가능