Kyubyong / g2pK

g2pK: g2p module for Korean
Apache License 2.0
236 stars 43 forks source link

영어 처리 과정에서 오류가 있습니다. [english.py] #14

Open 5Hyeons opened 2 years ago

5Hyeons commented 2 years ago

https://github.com/Kyubyong/g2pK/blob/3bb9d5afc5159220d5d16492aca7a58f121b6073/g2pk/english.py#L20

정규식 내에 따옴표 ' 때문에 영어 처리가 제대로 이루어지지 않습니다. 위를 그대로 사용할 경우 Input : the shawshank redemption'이다. 언뜻 생각하면 'escape'를 썼을 법한데 'redemption'을 썼다. redemption의 사전적 의미는 구원, 속죄, 회복이다. output : 'the 쇼섄크 리뎀프션'이다. 언뜯 쌩가카면 'escape'를 써쓸 뻐판데 '리뎀프션'을 썯따. 리뎀프셔늬 사전저 긔미는 구원, 속쬐, 회보기다.

아무래도 대괄호를 닫는 과정에서 오타를 넣으신 것 같습니다.

따라서 eng_words = set(re.findall("[A-Za-z]+", string))로 수정하면 좋을 듯합니다.

수정 후 output : '더 쇼섄크 리뎀프션'이다. 언뜯 쌩가카면 '이스케이프'를 써쓸 뻐판데 '리뎀프션'을 썯따. 리뎀프셔늬 사전저 긔미는 구원, 속쬐, 회보기다.