jeonchangbin49 / MedleyVox

69 stars 5 forks source link

상세한 안내가 필요합니다. #4

Open kbuwel opened 1 month ago

kbuwel commented 1 month ago

한국 개발자인거 같아 한국어로 작성합니다. README.md의 설명이 좀 부실한거 같습니다. 1 데이터셋 폴더 구성을 어떻게 합니까? 2 python 버전은 어떤것을 사용해야합니까? 3 훈련 명령어가 어렵습니다. 명령어를 좀 쉽게 알려주세요. 4 제가 갖고있는 데이터를 사용해도 됩니까? 예를들어 kss 데이터를 사용해도 됩니까? 5 노래만 음성을 분리 가능합니까? 아니면 대화도 가능합니까?

jeonchangbin49 commented 1 month ago

안녕하세요. 프로젝트에 관심 가져주셔서 감사드립니다. 벌써 꽤 오래된 연구라서 기억나는대로 말씀드리겠습니다.

  1. 데이터로더와 프리프로세싱 코드를 참고해서 구성하시면 될 것 같습니다.
  2. 정확히 기억은 안 나는데 3.6 혹은 3.7 이상의 버전 사용하시면 됩니다.
  3. 각각 hyperparameter 들에 대한 내용을 readme 에 상세하게 적어놓지는 못했습니다. 학습 코드에 부가 설명을 달아놓았으니 참고하시면 되겠습니다.
  4. 물론입니다. 더 많은 데이터 사용하면 더 성능이 좋아집니다.
  5. 대화도 가능합니다만 대화만 분리하는 모델을 사용하시는 편이 성능은 더 좋을겁니다. Asteroid 참고해보시면 공개된 모델들이 많이 있습니다.

혹시나 더 궁금한 사항 있으시면 말씀주세요. 감사합니다.