G2P 문의 - Githubissues

안녕하세요, 좋은 자료를 공유해 주셔서 감사합니다. 제가 빠르게 읽어본 바로는 독일어에서 Morfessor 를 이용한 morpheme analysis 를 했고 G2P 를 통해 phonemisation 하는경우 Morfessor가 성능이 별로 안좋은 것 같더라 하는 이야기 같습니다.

제 생각엔, 제로스 프로젝트에서도 마찬가지이지만 한국어 (음성인식)에서 꼭 G2P 를 사용해야 하는지 의문입니다. 한국어는 언어의 특성상 글자가 정해지면 소리가 정해지지요. 읽을 수있는 글자면 읽는 사람마다 소리가 달라지지 않습니다. 예를들면 아래 처럼요 Nebuchadnezzar --> 느부갓네살 Michelin --> 미슐랭

저도 Morfessor 를 사용해 보면 정확한 한국어 형태소를 찾지는 못하는 것으로 보입니다. 주어진 코퍼스를 가장 잘 설명하는 최소한의 morpheme을 찾는 방식이라 그럴 것이라 예상합니다.

그래서 저는 한국어 표준 발음법을 rule-base 로 짜두었고 Morfessor 가 찾는 morpheme boundary 정보를 활용해서 특정 형태소의 발음 다양성을 확보하는 방식으로 lexicon 을 만듭니다. https://github.com/goodatlas/zeroth/blob/master/s5/data/local/lm/buildLM/_scripts_/buildLexicon.sh#L54-L68

G2P를 통해 phonemisation 하는 것이 목적인 경우에는 제가 생각할 때도 Morfessor의 결과가 G2P 학습을 방해할 수 있을 것 같습니다.

감사합니다. 제로스 그룹 채널이 있으니 여기로 문의를 주시면 더 좋겠습니다. https://groups.google.com/forum/#!forum/zeroth-help

goodatlas / zeroth

G2P 문의 #4