kookmin-sw / capstone-2023-08

capstone-2023-08 created by GitHub Classroom
1 stars 4 forks source link

[BE] GPU 인스턴스 setting #93

Closed dh5473 closed 1 year ago

dh5473 commented 1 year ago

g4dn 인스턴스의 GPU와 pytorch 환경 세팅을 끝냈습니다. 버전 호환이 맞지 않아 인스턴스를 여러 번 갈아치웠는데, 다음과 같이 맞추어 해결했습니다. 저희가 사용할 모델 코드도 아래의 버전에서 문제 없이 작동하는 것까지 확인하였습니다.

Version Nvidia Driver - 525 cuda - 12.0 pytorch - 2.0

참고로 스토리지는 30GB로 설정해두었습니다. 20GB도 부족해서 어쩔 수 없이 늘렸습니다. (AWS에서 제공하는 딥러닝용 AMI의 기본 스토리지가 35GB인 것을 감안해주세요.)

초기에는 anaconda 혹은 docker 등 가상 환경에서 진행 하려 했지만, EC2 인스턴스 자체가 가상 환경이라 그런지 알 수 없는 에러와 충돌이 계속 일어나서 ubuntu 환경 위에 setting 하였습니다. 무언가 잘못되면 처음부터 다시 세팅해야 할 수 있으니 주의해주세요.

wynter122 commented 1 year ago

인스턴스에 스냅샷이라는 기능이 있습니다. 스냅샷 하는 시점의 인스턴스 볼륨을 기억해뒀다가 나중에 롤백할 수 있는 기능입니다.

현재 세팅이 잘 되었다면 해당 기능을 사용해 스냅샷으로 보존해두는것도 하나의 방법일 수 있겠습니다.

dh5473 commented 1 year ago

오 몰랐던 기능이네요! 감사합니다!!