edge 논문 설계 - Githubissues

ddps-lab / tfserving-inference

0 stars 2 forks source link

edge 논문 설계 #42

Open kh3654po opened 1 year ago

kh3654po commented 1 year ago

각 장비의 하드웨어 성능이 달라 모델의 추론 성능 및 로드 할 수 있는 모델 또한 다르다. xavier, tx2, nano 장비에서의 각 모델에 대한 최대 처리량 및 각 장비가 로드 할 수 있는 모델들을 파악한 후 이에 맞는 스케줄러를 설계하여 총 처리시간을 개선한다.

현재 각 장비에서 처리가능한 요청량을 파악했고 총 처리시간대비 각 장비의 idle time을 알 수 있습니다. 매초 각 장비가 처리한 요청들과 그 요청들을 처리하는데 소요된 시간을 알 수 있습니다.

앞으로 해야할 것

각 장비에 원하는 모델을 load/unload 할 수 있도록 제어가능하도록 변경
장비가 감당 불가능한 요청량이 들어오면 서버가 비정상 종료되는데 이를 막을 방법 모색
현재는 마스터 장비에서 각 장비들에 라운드 로빈으로 보내도록 동작하지만 각 장비의 최대 처리 요청량을 기준으로 보내도록 변경

기존 라운드로빈 스케줄러와 장비의 성능을 고려한 스케줄러의 차이를 측정

kmu-leeky commented 1 year ago

응 석현아 잘 정리했다. 구체적인 action item 들을 내일 금요일 오전에 같이 이야기해보자.