tx2에서 tf serving을 통해 모델들이 작동하는지 확인하기

ddps-lab / tfserving-inference

0 stars 2 forks source link

tx2에서 tf serving을 통해 모델들이 작동하는지 확인하기 #16

Closed kh3654po closed 1 year ago

kh3654po commented 1 year ago

tx2 장비에서 tf serving을 사용하여 각 모델들을 테스트 해봐야합니다.

[x] mobilenet v1
[x] mobilenet v2
[x] inception v3
[x] yolo v5
[x] nlp

kh3654po commented 1 year ago

현재는 3모델이 작동하는 것을 확인했습니다. 각 모델의 추론시간은 다음과 같습니다.

요청 100개를 병렬처리
각 요청은 쓰레드로 처리되는데 이 쓰레드는 master 장비에서 생성되며 각 장비에 tf serving 요청을 보내고 결과를 받는 작업을 수행함
쓰레드가 완료된 시간을 측정하고 결과로 보여주는 것이므로 추론시간에 더해 요청 보내고 받기까지의 시간도 포함되어있습니다.
mobilenet v1

avg: 0.8275123262405395 min: 0.0864572525024414 max: 1.3522508144378662
mobilenet v2

avg: 0.8579975652694702 min: 0.07913994789123535 max: 1.377866268157959
inception v3

avg: 3.919334180355072 min: 0.36092305183410645 max: 6.844343662261963

kmu-leeky commented 1 year ago

오케이. 100개 요청을 이정도라면 훌륭해보인다. gpu 사용하고 있고 gRPC 사용하는거지?

kh3654po commented 1 year ago

yolo v5 테스트 결과입니다. 환경은 위의 cnn과 같습니다.

yolo v5 avg: 6.322658982276916 min: 0.7359769344329834 max: 11.0577392578125

kh3654po commented 1 year ago

nlp 모델 테스트 완료했습니다.

xavier2와 마찬가지로 nlp모델 테스트 해봤습니다. 다만 xavier2에서 bert_imdb모델이 메모리를 25GB 사용하던것에 비해 tx2에서는 3GB정도만 사용하고 있습니다. distilbert_sst2 경우에는 tx2에서 메모리 사용량이 많아 응답이 없었지만 docker run 옵션중 -m 옵션으로 메모리 제한을 주니 작동을 잘하였습니다.

bert_imdb avg: 0.2712400913238525 min: 0.22487282752990723 max: 0.33521199226379395
distilbert_sst2 avg: 0.32943556308746336 min: 0.31650376319885254 max: 0.3379991054534912

kmu-leeky commented 1 year ago

석현아. 그러면 tx2 에서는 xavier2 보다 사용하는 하드웨어는 더 작은데 성능은 더 좋다는 이야기?