alsrb0607 / KoreanSTT

kospeech를 활용한 한국어 음성 인식 모델 개발
Apache License 2.0
31 stars 13 forks source link

Train epoch 관련 질문 드립니다. #1

Closed kthworks closed 1 year ago

kthworks commented 2 years ago

안녕하세요, 올려주신 블로그 포스팅이 많은 도움이 되어 저도 무사히 훈련을 시작했습니다, 감사합니다.

저는 ksponspeech 데이터를 다운 받아서 3080ti로 직접 training을 하고 있는데, 혹시 30만개 데이터셋 기준으로 epoch을 몇 번까지 돌리신 후에 해당 결과를 얻으셨는지 궁금해서 여쭙니다.

감사합니다 : )

alsrb0607 commented 1 year ago

안녕하세요, 올려주신 블로그 포스팅이 많은 도움이 되어 저도 무사히 훈련을 시작했습니다, 감사합니다.

저는 ksponspeech 데이터를 다운 받아서 3080ti로 직접 training을 하고 있는데, 혹시 30만개 데이터셋 기준으로 epoch을 몇 번까지 돌리신 후에 해당 결과를 얻으셨는지 궁금해서 여쭙니다.

감사합니다 : )

GPU가 있으시다니 부럽네요..ㅎㅎ 우선 답변이 늦어 죄송합니다. 블로그에서 밝힌 것처럼 저는 colab 환경에서 진행하다 보니 한계가 있어서 전체 30만 개 데이터를 6등분하여 5만 개씩 학습하였고, 각 5만 개 데이터를 기준 삼았을 때 batchsize는 32, 학습 epoch은 51이었습니다. 본래의 epoch 의미로 생각한다면 6번을 합쳐야 전체 데이터에 대해 1epoch 학습한 꼴이니 약 8.5 epoch 정도겠죠? 다만 실험 환경이 불안정하다보니 의도치 않게 6개 그룹의 학습 데이터에 대해 균일하게 학습되지 못한 부분이 있습니다. 참고가 되셨으면 좋겠네요,,! 질문 남겨주셔서 감사합니다 :)