xxxjjhhh / vllm_docker

개발자 유미 : vLLM 도커 환경 배포 스크립트 및 예시 코드
https://youtu.be/Q99WfdcACyY
0 stars 0 forks source link

양자화 모델 bitsandbytes 오류 #5

Open xxxjjhhh opened 3 days ago

xxxjjhhh commented 3 days ago

양자화 모델 bitsandbytes 오류

vllm 서빙시 서빙 불가 (Llama-3.1-70B-INT8)

xxxjjhhh commented 3 days ago

bitsandbytes 설치 후 테스트 중

xxxjjhhh commented 2 days ago

우분투 20.04 파이썬 3.8~3.9 환경 테스트 실패

xxxjjhhh commented 2 days ago

https://huggingface.co/neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w8a8

xxxjjhhh commented 2 days ago

사용한 모델 : https://huggingface.co/neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w8a8

우분투 22.04 파이썬 3.10 환경 테스트 성공

vllm 구동시 gpu 성능에 따른 max_token_len 값을 조정 해야함 (RTX A6000 X 2 기준, 50000 ~ 60000 사이값 설정)

xxxjjhhh commented 2 days ago

vRAM을 많이 할당하지 못하는 경우 초당 토큰 생성 수 효율이 많이 떨어짐 (양자화해도 KV 캐시용 vRAM이 많이 요구됨)