Open xxxjjhhh opened 3 days ago
bitsandbytes 설치 후 테스트 중
우분투 20.04 파이썬 3.8~3.9 환경 테스트 실패
사용한 모델 : https://huggingface.co/neuralmagic/Meta-Llama-3.1-70B-Instruct-quantized.w8a8
우분투 22.04 파이썬 3.10 환경 테스트 성공
vllm 구동시 gpu 성능에 따른 max_token_len 값을 조정 해야함 (RTX A6000 X 2 기준, 50000 ~ 60000 사이값 설정)
vRAM을 많이 할당하지 못하는 경우 초당 토큰 생성 수 효율이 많이 떨어짐 (양자화해도 KV 캐시용 vRAM이 많이 요구됨)
양자화 모델 bitsandbytes 오류
vllm 서빙시 서빙 불가 (Llama-3.1-70B-INT8)