1-Hee / soboro

인공지능 음성 인식 기술을 통한 청각 장애인을 위한 음성 번역기 프로젝트
1 stars 0 forks source link

AIhub 구음장애 음성인식 데이터 관련 문의 #1

Open apply100 opened 1 month ago

apply100 commented 1 month ago

안녕하세요,

저는 구음장애 환자를 위한 음성 인식기를 개발하고 있는 학생입니다. AIhub에서 제공하는 구음장애 음성인식 데이터셋을 사용하고 있는데, 오디오 파일이 문장별로 저장된 것이 아니라 여러 문장이 하나의 오디오 파일로 저장되어 있습니다. 이를 문장 단위로 분리하여 전처리하는 방법에 대해 조언을 구하고 싶습니다. 혹시 해당 데이터를 전처리할 때 사용하신 방법이나 툴, 혹은 스크립트가 있다면 공유해주실 수 있을까요?

감사합니다.

1-Hee commented 1 month ago

안녕하세요,

상기 프로젝트에서 저는 인공지능 모델의 학습 및 API 설계를 담당하진 않았습니다. 그래서, 어떤 스크립트 또는 도구를 통해 데이터의 전처리를 했는지 잘 모르겠습니다.

다만, 개인적인 답변을 드리자면 아래의 사이트를 참고해보시는 것을 제안 드립니다.

https://github.com/openai/whisper

https://cloud.google.com/speech-to-text

또한, 다루고 계신 음성 파일에 묵음 구간이 많아, 이를 기준으로 충분히 구간의 분리가 가능하다면, Python의 pydub 라이브러리를 활용하는 방법도 있다고 합니다.

좋은 프로젝트를 진행하시는 데에 조금이나마 도움이 되셨길 바랍니다.

감사합니다.