msyhu / paper-logs

읽어야 하는 논문들을 관리하고, 읽은 논문들의 기록을 남기는 공간
7 stars 1 forks source link

GaiaGPU: Sharing GPUs in Container Clouds #6

Closed msyhu closed 2 years ago

msyhu commented 2 years ago

어떤 내용의 논문인가요? 👋

motivation 참고.

Abstract (요약) 🕵🏻‍♂️

Containers are widely used in clouds due to their lightweight and scalability. GPUs have powerful parallel processing capabilities that are adopted to accelerate the execution of applications. In a cloud environment, containers may require one or more GPUs to fulfill the resource requirement of application execution, while on the other hand exclusive GPU resource of a container usually results in underutilized resource. Therefore, how to share GPUs among containers becomes an attractive problem to cloud providers. In this paper, we propose an approach, called GaiaGPU, to sharing GPU memory and computing resources among containers. GaiaGPU partitions physical GPUs into multiple virtual GPUs and assigns the virtual GPUs to containers as request. Elastic resource allocation and dynamic resource allocation are adopted to improve resource utilization. The experimental results show that GaiaGPU only causes 1.015% of overhead by average and it effectively allocates and isolates GPU resources among containers.

이 논문을 읽어서 무엇을 배울 수 있는지 알려주세요! 🤔

레퍼런스의 URL을 알려주세요! 🔗

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8672318

msyhu commented 2 years ago

Motivation

msyhu commented 2 years ago

Method

Architecture

image

Elastic, Dynamic Resource Allocation

image

msyhu commented 2 years ago

Experiment

overhead

image 거의 없다.

partitioning

image 대충 vGPU 나눈 갯수에 비례해서(linear) 수행 시간이 결정된다. 즉 잘 나눠진다는 말이다. 다만 메모리 관점에서는 별 변화가 없었다.

Isolation

image 본 논문에서 정의하는 isolation이란 하나의 container job 의 실행이 다른 container job에 의도하지 않은 영향을 끼치는 것 이다. MNIST로 작업을 고정시켜 놓고 컨테이너 늘렸을때 isolation 잘 되는지 여부를 확인한 도표이다. 혼자 쓸 때는 약 70% 정도 사용했는데 두개일때는 평균 36프로(362 = 72), 4개일때는 평균 17%(174 = 68), 8개일때는 평균 8%(8*8 = 64) 결과가 나왔다. 약간의 편차가 있지만, 대충 효과적으로 isolate시키는 것을 볼 수 있다.

Elastic Resource Allocation

image 0.3 GPU 요구하는 컨테이너 먼저 실행시키고 0.7 GPU 요구하는 컨테이너 나중에 실행시켰을 때, 먼저 실행된 0.3 GPU 컨테이너가 자원 독점하고 있다가 0.7 컨테이너 나중에 들어오니까 자원 사용량을 줄이는 모습을 볼 수 있다.

msyhu commented 2 years ago

Critic