각 장비별 요청처리 속도 비교

한 모델에 대해서 요청을 보내는 시나리오를 작성하여 측정해보았습니다. 결과는 아래와 같은데 대부분의 경우 xavier > tx > nano순으로 idle 시간이 컸습니다. inception이나 yolo같은 경우 요청량이 일정 이상 높아지면 tx와 nano는 서버가 중단되는 이슈가 있습니다. #37 에서 각 장비가 감당 할 수 있는 요청량을 측정해보겠습니다.

mobilenet v1을 초당 평균 3~4개씩 10초동안 보냈을 때 idle 시간비교


[nvidia-xavier2] requests num: 39
[nvidia-xavier2] requests: ['mobilenet_v1: 39']
[nvidia-xavier2] total: 6.930087566375732
[nvidia-xavier2] avg: 0.1732521891593933
[nvidia-xavier2] min: 0.0005619525909423828
[nvidia-xavier2] max: 0.41788291931152344
[nvidia-xavier2] 25%: 0.13445210456848145
[nvidia-xavier2] 50%: 0.1554124355316162
[nvidia-xavier2] 75%: 0.17616844177246094

[nvidia-tx2] requests num: 38 [nvidia-tx2] requests: ['mobilenet_v1: 38'] [nvidia-tx2] total: 5.088624715805054 [nvidia-tx2] avg: 0.1304775568155142 [nvidia-tx2] min: 0.0319218635559082 [nvidia-tx2] max: 0.307708740234375 [nvidia-tx2] 25%: 0.09490203857421875 [nvidia-tx2] 50%: 0.12137556076049805 [nvidia-tx2] 75%: 0.14188289642333984

[nvidia-nano1] requests num: 38 [nvidia-nano1] requests: ['mobilenet_v1: 38'] [nvidia-nano1] total: 3.850593090057373 [nvidia-nano1] avg: 0.11001694543021066 [nvidia-nano1] min: 0.006388187408447266 [nvidia-nano1] max: 0.33615827560424805 [nvidia-nano1] 25%: 0.07235264778137207 [nvidia-nano1] 50%: 0.0924992561340332 [nvidia-nano1] 75%: 0.10938239097595215


* mobilenet v2을 초당 평균 3~4개씩 10초동안 보냈을 때 idle 시간비교

[nvidia-xavier2] requests num: 38 [nvidia-xavier2] requests: ['mobilenet_v2: 38'] [nvidia-xavier2] total: 6.931028604507446 [nvidia-xavier2] avg: 0.1777186821668576 [nvidia-xavier2] min: 0.0005474090576171875 [nvidia-xavier2] max: 0.5152935981750488 [nvidia-xavier2] 25%: 0.12064361572265625 [nvidia-xavier2] 50%: 0.14438271522521973 [nvidia-xavier2] 75%: 0.21734333038330078

[nvidia-tx2] requests num: 38 [nvidia-tx2] requests: ['mobilenet_v2: 38'] [nvidia-tx2] total: 5.5075154304504395 [nvidia-tx2] avg: 0.14493461659080104 [nvidia-tx2] min: 0.0726008415222168 [nvidia-tx2] max: 0.4798164367675781 [nvidia-tx2] 25%: 0.0833895206451416 [nvidia-tx2] 50%: 0.1150822639465332 [nvidia-tx2] 75%: 0.20675158500671387

[nvidia-nano1] requests num: 38 [nvidia-nano1] requests: ['mobilenet_v2: 38'] [nvidia-nano1] total: 4.242930173873901 [nvidia-nano1] avg: 0.11165605720720793 [nvidia-nano1] min: 0.0003592967987060547 [nvidia-nano1] max: 0.436032772064209 [nvidia-nano1] 25%: 0.050647735595703125 [nvidia-nano1] 50%: 0.09375119209289551 [nvidia-nano1] 75%: 0.1464846134185791


* inception v3을 초당 평균 3~4개씩 10초동안 보냈을 때 idle 시간비교

[nvidia-xavier2] requests num: 36 [nvidia-xavier2] requests: ['inception_v3: 36'] [nvidia-xavier2] total: 3.464308023452759 [nvidia-xavier2] avg: 0.10825962573289871 [nvidia-xavier2] min: 0.0005829334259033203 [nvidia-xavier2] max: 0.38914012908935547 [nvidia-xavier2] 25%: 0.04377102851867676 [nvidia-xavier2] 50%: 0.07745695114135742 [nvidia-xavier2] 75%: 0.12461471557617188

[nvidia-tx2] requests num: 36 [nvidia-tx2] requests: ['inception_v3: 36'] [nvidia-tx2] total: 2.1736538410186768 [nvidia-tx2] avg: 0.08694615364074706 [nvidia-tx2] min: 5.984306335449219e-05 [nvidia-tx2] max: 0.36650824546813965 [nvidia-tx2] 25%: 0.007097482681274414 [nvidia-tx2] 50%: 0.06900858879089355 [nvidia-tx2] 75%: 0.1429898738861084

[nvidia-nano1] requests num: 35 [nvidia-nano1] requests: ['inception_v3: 35'] [nvidia-nano1] total: 1.096752643585205 [nvidia-nano1] avg: 0.15667894908360072 [nvidia-nano1] min: 0.0812678337097168 [nvidia-nano1] max: 0.2514674663543701 [nvidia-nano1] 25%: 0.08738851547241211 [nvidia-nano1] 50%: 0.13496780395507812 [nvidia-nano1] 75%: 0.21935009956359863


* yolo v5을 초당 평균 1~2개씩 5초동안 보냈을 때 idle 시간비교

[nvidia-xavier2] requests num: 9 [nvidia-xavier2] requests: ['yolo_v5: 9'] [nvidia-xavier2] total: 3.34574294090271 [nvidia-xavier2] avg: 1.672871470451355 [nvidia-xavier2] min: 0.0006308555603027344 [nvidia-xavier2] max: 3.3451120853424072 [nvidia-xavier2] 25%: 0.0006308555603027344 [nvidia-xavier2] 50%: 3.3451120853424072 [nvidia-xavier2] 75%: 3.3451120853424072

[nvidia-tx2] requests num: 8 [nvidia-tx2] requests: ['yolo_v5: 8'] [nvidia-tx2] total: 0.20211100578308105 [nvidia-tx2] avg: 0.10105550289154053 [nvidia-tx2] min: 0.00014662742614746094 [nvidia-tx2] max: 0.2019643783569336 [nvidia-tx2] 25%: 0.00014662742614746094 [nvidia-tx2] 50%: 0.2019643783569336 [nvidia-tx2] 75%: 0.2019643783569336

[nvidia-nano1] requests num: 8 [nvidia-nano1] requests: ['yolo_v5: 8'] [nvidia-nano1] total: 0.41646742820739746 [nvidia-nano1] avg: 0.20823371410369873 [nvidia-nano1] min: 0.012553930282592773 [nvidia-nano1] max: 0.4039134979248047 [nvidia-nano1] 25%: 0.012553930282592773 [nvidia-nano1] 50%: 0.4039134979248047 [nvidia-nano1] 75%: 0.4039134979248047

ddps-lab / tfserving-inference

각 장비별 요청처리 속도 비교 #38