sogang-isds / KsponSpeech

AIHub의 KsponSpeech 데이터셋 관련 코드 스크립트
1 stars 0 forks source link

중간발표 준비 #6

Open lifefeel opened 1 year ago

lakahaga commented 1 year ago

코드제로_중간발표_발표구성_초안.pptx

중간 발표 구성안입니다.

질문

  1. sk에서 전사하고 성능 좋아진 것 확인한 것 레퍼런스 아시는 분은 전달바랍니다.
  2. KSponSpeech를 한국어 음성인식의 benchmark라고 할 수 있는지?
  3. 5페이지에 검수과정에 대해 적었는데 제가 맞게 이해한 건지 확인바랍니다.
  4. confidence score를 이용한 모델 결과 확인에서, 음성인식 결과를 확인하는 대상은 훈련데이터고, 평가 데이터는 정제한 데이터로 학습한 모델의 성능 평가만을 위함이라고 이해했는데 맞는지 확인바랍니다.
  5. @JH-debug 추후 프레임워크 자료 전달 (논문 등) 부탁드립니다.

음성인식에 대해 잘 모르는 청중을 고려하여 음성인식 데이터를 구성하는 방식 등 프로젝트의 목적과 필요성에 대해 설득하기 위해 이렇게 구성하였는데, 설명이 충분한지 확인 부탁드립니다.

이외에도 추가되어야 하는 부분이나 수정할 부분이 있다면 코멘트를 달아주세요.

이를 기반으로 제안 발표 템플릿에 옮길 예정입니다.

JH-debug commented 1 year ago

고생하셨습니다! 5번 관련해서 프레임워크는 project 란에도 올렸는데, 아래 링크입니다. https://tiny-gong-b31.notion.site/c3af047d36904c289a4ddde866e042c1

ASR Error Detection via Audio-Transcript entailment (Interspeech 2022)와 ASR output 품질 개선을 위한 모델 기반 framework 아이디어를 중점적으로 봐주시면 감사하겠습니다.

JH-debug commented 1 year ago

3번, 4번 저도 같은 생각으로 이해했습니다. 4번 관련해서 confidence score나 WER, CER 등의 점수를 기준으로 상/중/하로 나누어서 훈련 데이터의 품질을 측정하고, 추출된 품질이 낮은 데이터를 정제한 뒤 사람이 직접 검수한 테스트 데이터로 성능을 평가한다고 생각했습니다.

JH-debug commented 1 year ago

2번 관련해서 korean automatic speech recognition 데이터셋 중에서 인용도가 높은 상위 데이터셋이고, AI hub의 한국어 오디오 데이터셋 41건 중에 특정 주제(립리딩, 숫자 패턴 발화, 화자 인식 등)와 도메인(방송 콘텐츠, 문학작품, 회의 등), 화자(아동, 여성, 남성, 노인)에 특화되지 않은 데이터여서 선택되었다고 할 수 있을 것 같습니다.