Closed ArtemisDicoTiar closed 3 years ago
일단 내가 직접 카운팅해서 본래의 쿼리보다 적게 언급되면 없애는 식으로 필터링하자
두개 단어가 말썽이다 산 넘어 산, 서당개도 삼년이면 풍월을 읊는다. 메뉴얼 모드로 추가하고 tsv에 기록되는 단어 수정함. 업데이트 된 용례 데이터 여전히 올바르지 않은 용례가 포함되어 있는 거 같다. 추가로 수정후 다시 업로드하자.
필터링 로직을 추가했으나 결국은 이부분은 사람이 해야하는 게 맞는 거 같다. 예제를 읽어가면서 올바른 source인지 부터 해당 속담이 올바르게 언급 되었는 지까지 확인해야한다.
양이 너무 많다 300개 읽었는 데 아직 반도 안왔다 ㅠ 대충 나머지 빠르게 훑어보니 대부분의 경우 올바르게 언급되어 있다. "산 넘어 산" 처럼 용언 분리 했을 때 다른 의미의 문장이 검색되어 저장된 것만 방지할 수 있게 사람이 필터링하면 될것 같다. version_1 dataset
일단 올바르게 파싱 안된 케이스도 다 긁고 나중에 정리하자
초기 예제 10개속담
문제
이렇게 나와서 검색 쿼리가
이 된다.
문제는 산(을) 넘(으니 호랑이가 ~~) 이런 결과도 검색된다는 것. 이유는 형태소검색에서는 해당 단어의 순서를 고려하지 않는다는 것이다. (지금 발견했다 ㅠㅠ) 그러므로 검색 결과에 넘/VV 와 산/NNG만 있으면 문장이 걸린거다. 그래서 "산(을) 넘(으면 호랑이가 버티는 격)"의 형태의 문장이 예제로 나온거다.
그러면 형태소를 미적용하고 어절 검색으로 "산&넘어&산"으로 검색할 수 있지만 이렇게 검색하면 ~~산을 넘어 (편의점에서) 산 (물) 등의 사다(buy) → 사 + ㄴ 의 의미로 사용된 단어들이 걸린다.
하... 어떻게 필터링하지