e- / Hangul.js

한글 자음/모음 분리/조합 자바스크립트 라이브러리. 자바스크립트 한글 오토마타 구현체입니다.
https://e-.github.io/Hangul.js/examples/
MIT License
694 stars 96 forks source link

쌍자음이 초성에 분절로 들어왔을 때의 처리 #5

Open hohoonlee opened 8 years ago

hohoonlee commented 8 years ago

Hangul.js를 사용하고 있는데 'ㅅㅅㅣ'라고 입력되는 경우 'ㅅ시'로 assemble이되고 있습니다. 제가 사용하는 용도에서는 '씨'로 assemble되는게 좋아서 변경해 봤습니다. assemble함수의 원래 용도와 차이가 있는지 모르겠습니다.

e- commented 8 years ago

안녕하세요. 먼저 기여 감사합니다. 궁금한 점이 두가지 있는데요

1) "ㅇㅣㅅㅅㅣ"를 다시 조합하면 어떻게 되나요? 원래는 "잇시" 가 될텐데 해당 패치를 적용하면 "이씨"로 되는 건가요? 아니면 그대로 "잇시" 가 되는건가요? "잇시" 가 옳아 보입니다.

2) "ㅇㅣㅅㅅㅅㅣ"를 다시 조합하면 원래는 "잇ㅅ시"가 될텐데 해당 패치를 적용하면 "잇씨"로 되는 건가요?

사실 이런 문제는 라이브러리의 동작 명세가 분명치 않다는 점 때문입니다. 현재는 "2벌식 키보드에서 누르는 키의 배열" 이런 식으로 얘기를 하고 있는데 사실 더 명확히 할 필요가 있죠. 2벌식 키보든는 레이아웃 표준일 뿐 동작 표준이 되지 못하니까요. 가령 맥에서는 ㅂㅂ가 ㅃ로 입력되지만 윈도우에선 그렇지 않죠.

hohoonlee commented 8 years ago

명세가 불명확한 것은 있지만, 제 필요성에 의한 패치였습니다. 1) 패치 적용 후에도 'ㅇ ㅣ ㅅ ㅅ ㅣ' 는 '잇시' 로 됩니다. 2) 패치를 적용하면 'ㅇ ㅣ ㅅ ㅅ ㅅ ㅣ'는 '있시'로 됩니다. '잇씨'를 쓰려는 의도였을 수도 있겠네요.

제가 적용하고 있는 부분은 'ㅅㅅㅣ발', 'ㅅ시발' 이렇게 비속어를 쓰는 사람이 있어서 이걸 '씨발'로 보고 필터링할려고 하고 있습니다.

생각하시는 정책과 다르다면 무시하셔도 괜찮습니다.