issues
search
ko-nlp
/
Korpora
Korean corpus repository
Creative Commons Attribution 4.0 International
694
stars
80
forks
source link
Release Korpora=0.1.0
#48
Closed
lovit
closed
4 years ago
lovit
commented
4 years ago
0.1.0
에서 제공하기 위해 추가로 작업해야 하는 말뭉치 리스트
[x]
Korean Hate Speech Corpus
github 에서 다운로드
[x]
질문쌍 데이터
github 에서 다운로드
[x]
네이버 x 창원대 NER
github 에서 다운로드
[x]
나무위키 wikitext 형식
https://github.com/lovit/namuwikitext
에 작업 완료
[x]
KcBERT 학습데이터
kaggle 에서 다운로드하지 않고, release 된 곳에 파일을 분할압축하여 저자가 공유함
0.1.0
에서 제공하기 위해 추가로 작업해야 하는 이슈들
[x]
custom dataclass
[x]
말뭉치 별 download remote path 관리
[x]
파일 별 fetch 함수 가동
용량 확인 후 알려진 용량과 다를 경우 파일 오버라이딩
모두의 말뭉치
신청 현황
국립국어원의 원시말뭉치 사용 계약 때문에 데이터 다운로드 횟수 제한이 있음 (@ratsgo 님이 확인)
데이터셋 다운로드용으로 신청한 내용은 위의 이유로 거절
login 후 파이썬 환경에서 다운로드 하는 것 역시 웹서버에서 기능 지원 불가하여 거절
local 에 데이터가 다운로드 되어있다고 가정한 뒤, class 를 이용하여 로딩하는 기능만 지원 가능
이는
0.2.0
에서 지원하기로 결정 (@lovit , @ratsgo )
0.1.0
에서 제공하기 위해 추가로 작업해야 하는 말뭉치 리스트0.1.0
에서 제공하기 위해 추가로 작업해야 하는 이슈들모두의 말뭉치
0.2.0
에서 지원하기로 결정 (@lovit , @ratsgo )