fd873630 / RNN-Transducer

RNN-Transducer for korean
38 stars 3 forks source link

training gpu memory 질문있습니다 #5

Closed YooSungHyun closed 1 year ago

YooSungHyun commented 1 year ago

titan xp로 하셨다고 하셨는데, joint concat하는 부분에서 repeat가 엄청 진행되면서, 메모리가 계속 터지는데, 혹시 안겪어보셨나요?

YooSungHyun commented 1 year ago

그거 대비 utilization 은 또 썩 좋진 않네요 ㅠㅠ 저는 torch lightning으로 작성하긴했는데, 가동율도 좋으셨는지 여쭤보고 싶슴다..

fd873630 commented 1 year ago

일단 제 환경은 titan xp 4개로 nn.DataParallel(model) 진행했습니다.

ai hub 기준 titan xp 4개로 돌려도 character 단위는 oom 생겼습니다.

그래서 제가 한 방법은 긴 길이의 음성 학습 데이터에서 제외, 초성 중성 종성으로 나눠서 학습 이 두가지로 해결했습니다.

감사합니다!