wav2vec 2.0에 대한 질문

논문을 확인해보았을때, 음성의 Feature Extraction은 전통적인 음향 도메인 기술을 사용해야되거나, 아니면 사용해서 처리할 수 있도록 소스로 구현되어있는 걸로 보였습니다. (아직 소스를 풀리뷰 하진 못했습니다.)

저희는 현재 wav2vec 2.0을 이용해서 Feature Extraction을 진행하고자 하는데, 혹시 지원 예정이라던지 1)업데이트 로드맵에 포함되었는지에 대한 여부와

2) Feature Extraction만 저희가 wav2vec을 적절히 자체 구현하여 사용하면 kospeech에서 제공되는 모델 아키텍쳐와 파라미터 세트들을 이용하여 처리할 수 있을 것 같은지? 에 대한 의견 좀 이야기 해주시면 감사하겠습니다.

sooftware / kospeech