ko-nlp / moducorpus-sanitizer

모두의 말뭉치 데이터를 분석에 편리한 형태로 변환하는 기능을 제공합니다.
MIT License
11 stars 0 forks source link

모두의 말뭉치: sanitizer 를 거쳐 정제해야 하는 말뭉치 리스트 정리 #18

Open lovit opened 3 years ago

lovit commented 3 years ago

모두의 말뭉치는 13개의 세부 말뭉치로 구성되어 있지만, 이 중 몇 말뭉치는 다른 말뭉치와 의존성이 존재합니다. 이러한 말뭉치는 두 개의 말뭉치 roots 를 모두 입력받아야 하며, 지나치게 비효율적으로 메모리를 이용하기 때문에 korpora 에서는 loader 를 제공하지 않습니다.

위 사항에 해당하는 말뭉치와 의존성을 정리합니다.

말뭉치 의존성
문서 요약 말뭉치 신문 말뭉치의 뉴스 기사 4,389 건을 원본으로 이용하나, 신문 말뭉치 문서 id 만 제공하여 mash-up 이 필요
유사 문장 말뭉치 신문 말뭉치, 구어 말뭉치 에서 추출한 기초 문장 17,959 개를 바탕으로 유사 문장 작성, sentence id를 이용한 mash-up 이 필요
lovit commented 3 years ago

이 이슈는 moducorpus-sanitizer 로 이전합니다.