모델 학습 관련 질문

rlawoons34 commented 3 years ago

질문 여러개가 있어서 조금 분류하여 질문해볼까 합니다. 1.학습 중간에 stop(session에있는)을 한후,이떄동안 학습했던 step중에 하나를 제출할수 있나요?(저가 몇번 시도했었는데 안되는거 같아 혹여 질문드립니다.혹시 기존 파라미터에 맞게 모두 학습이 되어야만 제출 가능한가요>?

2.GUP avg가 100%가 되면 어떻게 되는지 궁금합니다.혹 학습이 강제 중지되는지,,?

3.저희가 hyperparpmeter를 바꿔보면서 최적의 파라미터를 찾아가던중,복잡도를 증가 시키기 위해서 hidden layer을 하나더 만들면 어떨까 하는 생각이 들어 추가하게 되었습니다.혹여 이 hindden layer을 증가시키는것이 학습시킬때 학습시간과 모델 크기?에 얼마나 큰,혹은 어떤 영향을 끼치는지 궁금합니다.혹시 규정에 hidden layer추가를 하면 안되는.......적중률을 증가시키기위한 팁에 hidden layer에 관한 내용은 없어 혹여 질문드립니다.(몇차례 실험결과 시간이 증가되는것 같긴한데 모델크기와 연관이 있는것인지도 궁금합니다 그냥 여러 층을 통과해야 되기에 시간이 많이 걸리는것인지)

4,모델이 너무 커지지 않게 hyperparameter를 조정하시라고 하시는데,혹여 너무 커지게 되어 모델이 터진다는것이 정확히 무슨 의미인지 궁금합니다.어떤 현상이 일어나는지 그에 대한 중점으로 답변해주시면 감사하겠습니다.

gyuwankim commented 3 years ago

nsml.save로 저장된 checkpoint에 대해서는 제출이 가능합니다.
GPU core utilization을 말씀하시는걸까요? 100%까지는 괜찮을거 같습니다.
대회 규정상 hidden layer를 추가하면 안되는 제약은 없습니다. 말씀하신대로 추가적인 층을 통과해해야하기 때문에 실행 시간이 약간 늘어날 것 입니다. 정확도 관련해서는 직접 여러가지를 시도해보시고 좋은 세팅을 찾아보시기 바랍니다.
GPU에 메모리의 제약이 있습니다. 모델 파라메터나 연산 과정 중에 생기는 중간 representation들 또한 GPU 메모리 상에 올라가게 되는데요. 모델 사이즈나 hidden size가 너무 크면 모든 값을 담기에 메모리가 부족하여 out-of-memory로 터지는 현상이 발생할 수 있습니다.

rlawoons34 commented 3 years ago

감사합니다@

keris2020 / hackathon

모델 학습 관련 질문 #69