Naver-AI-Hackathon / AI-Speech

31 stars 5 forks source link

Test set의 모든 답변이 hackathon.labels로 커버가능한가요? #60

Closed angrypark closed 4 years ago

angrypark commented 4 years ago

현재 베이스라인으로 제공된 label은 음절 단위로 총 817개의 label이 제공되어 있습니다. 확인해보니 train script들에서 등장하는 총 음절의 수이더라구요.

하지만 한글의 음절 수는 많이 쓰는 음절 2,350개, 총 음절은 11,172개이라서, 817개 안에 들어있지 않는 음절은 베이스라인 코드로는 결과에 나올 수 없습니다. 그리고 상식적으로 생각해도, 817개의 음절들만으로 대부분의 문장이 커버될 것 같지는 않습니다.

그래서 test set의 답변 스크립트에 이 817개의 음절이 아닌 음절들이 포함되어 있는 지 알고 싶습니다.

byc3230 commented 4 years ago

저도 해당건 궁금합니다.

RaicLee commented 4 years ago

저도 의문입니다

ClovaAIAdmin commented 4 years ago

해당 label은 테스트셋에 등장하는 모든 음절을 포함하고 있습니다. ^^ 감사합니다.

angrypark commented 4 years ago

감사합니다