wisdomify / storyteller-deprecated

Forward dictionary of Korean Proverbs
2 stars 0 forks source link

고려대 코퍼스 예제 크롤링 결과 #10

Closed ArtemisDicoTiar closed 3 years ago

ArtemisDicoTiar commented 3 years ago

초기 예제 10개속담

문제

  1. 산 넘어 산 산 넘어 산을 형태소 분석하게 되면
    [('산', 'NNG'), ('넘', 'VV'), ('어', 'ECD'), ('산', 'NNG')]

    이렇게 나와서 검색 쿼리가

    산/NNG&넘/VV&산/NNG

    이 된다.

문제는 산(을) 넘(으니 호랑이가 ~~) 이런 결과도 검색된다는 것. 이유는 형태소검색에서는 해당 단어의 순서를 고려하지 않는다는 것이다. (지금 발견했다 ㅠㅠ) 그러므로 검색 결과에 넘/VV 와 산/NNG만 있으면 문장이 걸린거다. 그래서 "산(을) 넘(으면 호랑이가 버티는 격)"의 형태의 문장이 예제로 나온거다.

그러면 형태소를 미적용하고 어절 검색으로 "산&넘어&산"으로 검색할 수 있지만 이렇게 검색하면 ~~산을 넘어 (편의점에서) 산 (물) 등의 사다(buy) → 사 + ㄴ 의 의미로 사용된 단어들이 걸린다.

하... 어떻게 필터링하지

ArtemisDicoTiar commented 3 years ago

일단 내가 직접 카운팅해서 본래의 쿼리보다 적게 언급되면 없애는 식으로 필터링하자

ArtemisDicoTiar commented 3 years ago

두개 단어가 말썽이다 산 넘어 산, 서당개도 삼년이면 풍월을 읊는다. 메뉴얼 모드로 추가하고 tsv에 기록되는 단어 수정함. 업데이트 된 용례 데이터 여전히 올바르지 않은 용례가 포함되어 있는 거 같다. 추가로 수정후 다시 업로드하자.

ArtemisDicoTiar commented 3 years ago

필터링 로직을 추가했으나 결국은 이부분은 사람이 해야하는 게 맞는 거 같다. 예제를 읽어가면서 올바른 source인지 부터 해당 속담이 올바르게 언급 되었는 지까지 확인해야한다.

ArtemisDicoTiar commented 3 years ago

양이 너무 많다 300개 읽었는 데 아직 반도 안왔다 ㅠ 대충 나머지 빠르게 훑어보니 대부분의 경우 올바르게 언급되어 있다. "산 넘어 산" 처럼 용언 분리 했을 때 다른 의미의 문장이 검색되어 저장된 것만 방지할 수 있게 사람이 필터링하면 될것 같다. version_1 dataset

ArtemisDicoTiar commented 3 years ago

일단 올바르게 파싱 안된 케이스도 다 긁고 나중에 정리하자