jymsuper / SpeakerRecognition_tutorial

Simple d-vector based Speaker Recognition (verification and identification) using Pytorch
MIT License
210 stars 46 forks source link

Resnet모델관련 질문 드립니다. #12

Closed lee0520-art closed 3 years ago

lee0520-art commented 3 years ago

image image 윗사진은 화자인식의 resnet.py의 resnet모델 코드인데 실제 resnet34와 그 숫자를 비교해봤을때 resnet vs 화자인식의 resnet모델 64 16 128 32 256 64 512 128 이렇게 차이가 나는걸 확인할수 있는데 혹시 이렇게 짜신 이유가 용량이 너무 커서 그러신건가요? 원래 Resnet 모델로 바꿔서 돌려보니깐 GPU가 부족하다고 하긴하네요. 이렇게 바꾸신 특별한 이유가 있으면 궁금합니다. 감사합니다.

jymsuper commented 3 years ago

채널의 개수는 16-32-64-128로 설정 할수도 있고, 32-64-128-256으로도 할수도 있고, 64-128-256-512로 할수도 있습니다. 현 코드에서는 데이터 양이 적기 때문에 모델의 사이즈를 작게 설정하였습니다. 말씀하신 것처럼 gpu의 한계로 인해 모델의 사이즈가 결정될 수도 있습니다. 본인의 상황에 맞게 설정하시면 될 것 같습니다.