Closed kh3654po closed 1 year ago
현재는 3모델이 작동하는 것을 확인했습니다. 각 모델의 추론시간은 다음과 같습니다.
요청 100개를 병렬처리
각 요청은 쓰레드로 처리되는데 이 쓰레드는 master 장비에서 생성되며 각 장비에 tf serving 요청을 보내고 결과를 받는 작업을 수행함
쓰레드가 완료된 시간을 측정하고 결과로 보여주는 것이므로 추론시간에 더해 요청 보내고 받기까지의 시간도 포함되어있습니다.
mobilenet v1
avg: 0.8275123262405395 min: 0.0864572525024414 max: 1.3522508144378662
mobilenet v2
avg: 0.8579975652694702 min: 0.07913994789123535 max: 1.377866268157959
inception v3
avg: 3.919334180355072 min: 0.36092305183410645 max: 6.844343662261963
오케이. 100개 요청을 이정도라면 훌륭해보인다. gpu 사용하고 있고 gRPC 사용하는거지?
yolo v5 테스트 결과입니다. 환경은 위의 cnn과 같습니다.
nlp 모델 테스트 완료했습니다.
xavier2와 마찬가지로 nlp모델 테스트 해봤습니다. 다만 xavier2에서 bert_imdb모델이 메모리를 25GB 사용하던것에 비해 tx2에서는 3GB정도만 사용하고 있습니다. distilbert_sst2 경우에는 tx2에서 메모리 사용량이 많아 응답이 없었지만 docker run 옵션중 -m 옵션으로 메모리 제한을 주니 작동을 잘하였습니다.
bert_imdb avg: 0.2712400913238525 min: 0.22487282752990723 max: 0.33521199226379395
distilbert_sst2 avg: 0.32943556308746336 min: 0.31650376319885254 max: 0.3379991054534912
석현아. 그러면 tx2 에서는 xavier2 보다 사용하는 하드웨어는 더 작은데 성능은 더 좋다는 이야기?
tx2 장비에서 tf serving을 사용하여 각 모델들을 테스트 해봐야합니다.