lovit / sejong_corpus_cleaner

세종 말뭉치 데이터를 정제하기 위한 utils
36 stars 6 forks source link

UNA 라는 tag 은 무엇인지요? #6

Closed zidane100e closed 5 years ago

zidane100e commented 5 years ago

안녕하세요 좋은 코드 잘 사용할 수 있게 해주셔서 감사드립니다 현재 clean 된 결과에 구어체에 정리된 단어에 UNA 라는 tag 이 있는데 원문에 찾아보면 없는 것 같습니다. 혹시 UNA 는 어떤 것입니까?

eojeol_morphtag_colloquial.txt:비잖아,  비/VV + 잖/UNA + 아/EF + ,/SP
eojeol_morphtag_colloquial.txt:다니잖아?        다니/VV + 잖/UNA + 아/EF + ?/SF
eojeol_morphtag_colloquial.txt:타잖아?  타/VV + 잖/UNA + 아/EF + ?/SF
lovit commented 5 years ago

세종 말뭉치의 원문을 살펴보니 대화체 데이터에서 잖/UNA 가 존재합니다.

5CT_0042-0000700    말이잖아    말/NNG+이/VCP+잖/UNA+아/EF
5CT_0042-0001910    않았잖아.   않/VX+았/EP+잖/UNA+아/EF+./SF
5CT_0042-0003020    되잖아.    되/VV+잖/UNA+아/EF+./SF
5CT_0042-0003860    거잖아.    거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
5CT_0042-0005370    거잖아.    거/NNB+(이)/VCP+잖/UNA+아/EF+./SF
...

대부분 UN- 으로 시작하는 태그들은 unknown 을 의미하기 때문에 아예 신경을 안썼는데 통계표를 보니 높은 비율로 존재하는 태그네요.

짐작이지만, unknown adjective 가 아닐까 싶습니다. 거잖아 는 대화체에서 것이지 않아 의 축약이고, 이 때 은 형용사 역할을 하지만 실제로는 축약된 단어이기 때문에 unknown morpheme 으로 표기한 것이 아닐까 싶습니다.

zidane100e commented 5 years ago

아 그렇네요 grep 로 찾으니 안나오고, Konlpy 에 있는 태그표에도 없어서 없는 줄로 알았습니다. 뭔가 잘못했었나 봅니다. 통계표에 tag 들이 잘 나와있네요 감사합니다.