공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다.

ko-nlp / Korpora

Korean corpus repository

Creative Commons Attribution 4.0 International

697 stars 80 forks source link

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

Open hwiorn opened 3 years ago

hwiorn commented 3 years ago

현재 공개 스피치 데이터셋의 경우 전사 데이터를 취합하면, 이 역시 코퍼스로 활용이 가능한데 계획이 있으신지 문의합니다. (승인을 통해 사용이 가능한 데이터셋입니다)

~AIHub 음원 데이터 1000hr. 분량~ #196 반영
ClovaCall 음원 데이터 200hr. 분량

lovit commented 3 years ago

스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다.

@hwiorn 님은 어떻게 생각하시나요?

hwiorn commented 3 years ago

스피치 데이터 셋이 실 대화 데이터이기 때문에, 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. 자연어 처리를 쉽게 다루기 위해 만들어진 Korpora 성격상, 제 개인적인 생각으로는 "음원"까지 다루는 것은 아직은 아닌 것 같습니다.

lovit commented 3 years ago

이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다.

@hwiorn 님의 생각에 동의합니다. Korpora==0.3.0 (#187 ) 에 이 내용 반영하면 좋을 듯 합니다. 제보 감사합니다.

hwiorn commented 3 years ago

AIHub에서 전사 스크립트에 대해서 따로 KsponSpeech_scripts 파일로 제공하고 있습니다. 해당 파일만 사용하면, 전체 데이터셋(음원 포함)을 다운받을 필요가 없을 것 같습니다.

https://www.aihub.or.kr/aidata/105/download