NewsJelly / semantle-ko

https://semantle-ko.newsjel.ly/
Other
195 stars 39 forks source link

원형이 아닌 단어는 유사단어 상위 1000개에서 제외해야 합니다 #23

Open phsstar opened 5 months ago

phsstar commented 5 months ago

꼬맨틀 재밌게 하고있습니다.

정답 맞히고 나서 상위 1000개의 단어리스트를 확인해보면 원형이 아닌 활용형의 단어들이 다수 차지하고 있을 때가 있습니다 특히 지난번 "차차"가 정답이었을 때 가장 심했던 것 같습니다.(이때는 저도 답을 못맞혔어요)

단어를 추측할때 활용형으로 굳이 넣는 유저는 거의 없을것같습니다. 그런데 상위 1000개 리스트의 다수가 활용형으로 채워져 있으면 유사도 상위권의 단어를 하나라도 찾는 자체가 매우 힘들어집니다. 애초에 원형이 아닌 활용형이 별개의 단어로 취급된다는 점이 한국어의 언어적 특성을 제대로 반영하지 못한 일종의 오류로 보입니다. 학습된 데이터 안에 활용형 단어들이 있더라도 그걸 원형으로 변환해서 유사도에 반영해야 맞는 것 같습니다. 아직 기술적 한계가 있겠지만 최대한 용언의 활용형은 별개의 단어로 취급하지 않게끔 보완해주시기 바랍니다