haven-jeon / PyKoSpacing

Automatic Korean word spacing with Python
GNU General Public License v3.0
403 stars 118 forks source link

인풋에 알파벳 포함시 정합성 관련 #52

Closed leethamen closed 1 year ago

leethamen commented 1 year ago

인풋에 알파벳이 포함되면 대체적으로 정합성이 떨어지는 경향이 있는것 같습니다. (아래 예시)

혹시 보정 가능한 방법이 있을까요?

c타입자석케이블 -> c타입자 석 케이블

3d풋브러쉬 -> 3d풋 브러쉬

tv다 이 책장 -> tv다 이 책장

bmw썬바이저 -> bm w 썬바이저

haven-jeon commented 1 year ago

모델 자체에서 보정은 현재 어려운 상황이구요. 모델 입력 전에 전처리(영문 연속, 한글연속) 분리 하시고 한글연속(공백포함) 시퀀스에 대해서 Spacing을 하신뒤 그 결과를 영문 연속 결과로 붙이는 작업을 진행하는게 현실적이라 생각합니다.

haven-jeon commented 1 year ago

해당 이슈는 추가 코멘트 올려주실때 다시 오픈하겠습니다.