Closed Den4ikAI closed 1 year ago
Мы пока не занимались ускорением инференса. Вы можете на каждой запустить по модели и тогда для пользователей будет ускорение, если их много. также можете попробовать использовать onnxruntime или deepspeed inference.
Приветствую! Имеется отфайнтюненая rugp3-large и пк с 3 tesla m40. Возможно ли ускорить работу модели используя все 3 карты?