ko-nlp / Korpora

Korean corpus repository
Creative Commons Attribution 4.0 International
692 stars 80 forks source link

CLI fetch 기능 제공 #108

Closed lovit closed 3 years ago

lovit commented 3 years ago

현재 아래와 같은 파이썬 패키지로만 fetch 가 가능합니다.

from Korpora import Korpora
Korpora.fetch('all')

다음처럼 cli 환경으로 fetch 가 가능하도록 기능을 제공합니다.

korpora fetch --corpus nsmc kornli
lovit commented 3 years ago

fetch 가능한 코퍼스의 종류를 볼 수 있도록 list 기능을 제공합니다.

$ korpora list

[Corpus] kcbert : beomi@github 님이 만드신 KcBERT 학습데이터
[Corpus] korean_chatbot_data : songys@github 님이 만드신 챗봇 문답 데이터
[Corpus] korean_hate_speech : {inmoonlight,warnikchow,beomi}@github 님이 만드신 혐오댓글데이터
[Corpus] korean_petitions : lovit@github 님이 만드신 2017.08 ~ 2019.03 청와대 청원데이터
[Corpus] kornli : KakaoBrain 에서 제공하는 Natural Language Inference (NLI) 데이터
[Corpus] korsts : KakaoBrain 에서 제공하는 Semantic Textual Similarity (STS) 데이터
[Corpus] kowikitext : lovit@github 님이 만드신 wikitext 형식의 한국어 위키피디아 데이터
[Corpus] namuwikitext : lovit@github 님이 만드신 wikitext 형식의 나무위키 데이터
[Corpus] naver_changwon_ner : 네이버 + 창원대 NER shared task data
[Corpus] nsmc : e9t@github 님이 만드신 Naver sentiment movie corpus v1.0
[Corpus] question_pair : songys@github 님이 만드신 질문쌍(Paired Question v.2)