Closed zidane100e closed 5 years ago
세종 말뭉치의 원문을 살펴보니 대화체 데이터에서 잖/UNA
가 존재합니다.
5CT_0042-0000700 말이잖아 말/NNG+이/VCP+잖/UNA+아/EF
5CT_0042-0001910 않았잖아. 않/VX+았/EP+잖/UNA+아/EF+./SF
5CT_0042-0003020 되잖아. 되/VV+잖/UNA+아/EF+./SF
5CT_0042-0003860 거잖아. 거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
5CT_0042-0005370 거잖아. 거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
...
대부분 UN-
으로 시작하는 태그들은 unknown 을 의미하기 때문에 아예 신경을 안썼는데 통계표를 보니 높은 비율로 존재하는 태그네요.
짐작이지만, unknown adjective 가 아닐까 싶습니다. 거잖아
는 대화체에서 것이지 않아
의 축약이고, 이 때 잖
은 형용사 역할을 하지만 실제로는 축약된 단어이기 때문에 unknown morpheme 으로 표기한 것이 아닐까 싶습니다.
아 그렇네요 grep 로 찾으니 안나오고, Konlpy 에 있는 태그표에도 없어서 없는 줄로 알았습니다. 뭔가 잘못했었나 봅니다. 통계표에 tag 들이 잘 나와있네요 감사합니다.
안녕하세요 좋은 코드 잘 사용할 수 있게 해주셔서 감사드립니다 현재 clean 된 결과에 구어체에 정리된 단어에 UNA 라는 tag 이 있는데 원문에 찾아보면 없는 것 같습니다. 혹시 UNA 는 어떤 것입니까?