KLUE-benchmark / KLUE

📖 Korean NLU Benchmark
https://klue-benchmark.com
Creative Commons Attribution Share Alike 4.0 International
554 stars 55 forks source link

wos-v1/ontology와 관련한 지하철 역명 표기 문제 #10

Open taepd opened 3 years ago

taepd commented 3 years ago

안녕하세요. 자연어, 그리고 DST에 관심이 많은 태영돈이라고 합니다. 🙂

wos-v1/ontology와 관련하여 찾게된 지하철 역명 표기 문제에 대해 말씀드리고자 합니다.

WoS 데이터셋의 경우, 관광지 이름이나, 지하철역명 등은 실제 이름 그대로 사용하고, 숙소/식당 이름 등은 가상의 이름을 사용한 것으로 알고 있습니다.

이를 바탕으로 wos-v1/ontology를 EDA 해본 바로 다음 두 가지 문제가 있다고 생각합니다.

1. 오기재된 지하철역명

2. 다중 표기의 문제

이는 WoS의 데이터셋 구축에서 '지하철역명은 정식명칭을 기준으로 한다' 는 원칙이 있다는 가정 하에 발생하는 문제입니다.


1. 오기재된 지하철역명 의 경우엔 수정되는게 맞다고 생각합니다. 2. 다중 표기의 문제 는 어떤 식으로 대응하는게 좋을지 개인적으론 판단이 명확히 서지 않습니다. DST WoS데이터셋을 구축할 때 해당 이슈를 어떤 기준으로 처리하셨을지 궁금합니다. 👀

DSKSD commented 3 years ago

안녕하세요! 답변이 늦었네요. 리포트 감사드립니다.

지하철역 관련하여 말씀해주신 이슈를 예전에 한번 정제를 했었는데, 조금 남아있었나보군요. 다음 버전업을 진행하게 된다면 해당 이슈를 리졸브해보도록 하겠습니다.