-
## Dataset Information
* Dataset Name: Wikitext format dataset of Namuwiki
* Prefered code name(e.g. `korean_chatbot_qa_data`): `namuwikitext`
* Dataset description: 나무위키의 덤프 데이터를 바탕을 제작한 wikite…
-
현재 REAME en 의 부분에서도 다음처런 내용이 기술되어 있습니다.
```python
from Korpora import Korpora
Korpora.corpus_list()
```
```
{
'kcbert': 'beomi@github 님이 만드신 KcBERT 학습데이터',
'korean_chatbot_data': 'so…
lovit updated
3 years ago
-
다운로드 가능한 데이터셋에 대해서만 lmdata를 통해 학습용 데이터셋을 출력하는 것으로 보입니다.
AIHUB나 모두의 코퍼스 셋은 로더 쪽도 준비가 다 된 것 같아, lmdata에 반영을 하면 될 것으로 보이는데, 혹시 작업 예정이신지 궁금합니다.
-
### 路由地址
/the-economist
### 完整路由地址
/the-economist/:endpoint
### 相关文档
https://docs.rsshub.app/traditional-media.html#the-economist
### 预期是什么?
可以抓取到全文输出RSS内容
### 实际发生了什么?
无法抓取,报错
官方演示页面同样无…
-
여러 종류의 Korpus 로부터 texts 성분만 취하여 이들을 병합하여 언어 모델을 학습할 때 사용할 수 있는 데이터로 정제하는 기능을 CLI 형태로 제공하면 좋을듯 합니다.
lovit updated
4 years ago
-
## Requirements
- github action 에서 fetch 를 모두 실행시키는 것은 시간이 오래걸리며, kowikitext, namuwikitext 의 경우 사용자가 train data 의 개수를 지정하며 데이터를 로딩합니다.
- AI Hub, 국립국어원 모두의 말뭉치는 저작권 이슈가 있어 직접 local 에 데이터를 다운받아야 하기에 a…
lovit updated
3 years ago
-
현재 아래와 같은 파이썬 패키지로만 fetch 가 가능합니다.
```python
from Korpora import Korpora
Korpora.fetch('all')
```
다음처럼 cli 환경으로 fetch 가 가능하도록 기능을 제공합니다.
```
korpora fetch --corpus nsmc kornli
```
lovit updated
4 years ago
-
Error while finding module specification for 'examples.wmt_2020.en_de.trans_quest' (ModuleNotFoundError: No module named 'examples')
-
`KoreanPetitions` 데이터를 예시로 들어보면,
현재 코퍼스의 instance하나를 `KoreanPetition`, 데이터를 `KoreanPetitionsData` 클래스로 구현하고 있고 `KoreanPetitionsData`의 `__getitem__`에서 on-the-fly로 `KoreanPetition` dataclass를 만드는 식으로…
-
Hi,
I am considering creating language support for the Korean language, and I am interested in what are the requirements, steps I need to take?
Could you please elaborate on the steps and also …