-
- 며칠 간 작업을 함께 하면서 패키지 구조를 변경하는 일들이 발생했고, 그와 동시에 여러 개의 코퍼스에 대한 작업을 수행하다보니 conflict 가 날 가능성이 높아지고 있습니다.
- 코드 관리 및 이후에 다른 분들과의 협업을 위해서도 간단한 convention 을 논의해 보면 좋을 것 같아요.
- 아래에 comments 로 conventions 을 …
lovit updated
4 years ago
-
## env
- korpora == 0.2.0
- python ~= 3.8
## Issue
### command
아래 커맨드 실행시 에러 발생
```bash
korpora lmdata \
--corpus all \
--output_dir ~/works/lmdata
```
### Error log
```
…
Beomi updated
3 years ago
-
-
혹시 해당 모델은 어떠한 방식으로 학습된건지 자세히 알 수 있을까요?
P.S
BM-K 님 레포 보면서 많이 배우고있습니다 감사합니다 ㅎㅎ
-
먼저 좋은 정보 감사합니다. colab 예제를 통해 Kornli 성능 실험하고 있습니다.
혹시 더 좋은 성능을 위해 Hyper-parameter tuning 한 예제 적용도 colab에서 적용해주실 수 있을까요?
-
현재 아래와 같은 파이썬 패키지로만 fetch 가 가능합니다.
```python
from Korpora import Korpora
Korpora.fetch('all')
```
다음처럼 cli 환경으로 fetch 가 가능하도록 기능을 제공합니다.
```
korpora fetch --corpus nsmc kornli
```
lovit updated
3 years ago
-
## Requirements
- github action 에서 fetch 를 모두 실행시키는 것은 시간이 오래걸리며, kowikitext, namuwikitext 의 경우 사용자가 train data 의 개수를 지정하며 데이터를 로딩합니다.
- AI Hub, 국립국어원 모두의 말뭉치는 저작권 이슈가 있어 직접 local 에 데이터를 다운받아야 하기에 a…
lovit updated
3 years ago
-
# Question
## Information
Model I am using (Bert, XLNet ...): XLM-RoBERTa-base
Language I am using the model on (English, Chinese ...): Korean
Adapter setup I am using (if any):
The pro…
-
여러 종류의 Korpus 로부터 texts 성분만 취하여 이들을 병합하여 언어 모델을 학습할 때 사용할 수 있는 데이터로 정제하는 기능을 CLI 형태로 제공하면 좋을듯 합니다.
lovit updated
3 years ago
-
사용 예제에서 import하는 모듈명에 `Korpus`가 누락되었습니다.
`KoreanHateSpeech` -> `KoreanHateSpeechKorpus`
`KoreanPetitions` -> `KoreanPetitionsKorpus`
`KorNLI` -> `KorNLIKorpus`
`KorSTS` -> `KorSTSKorpus`
`NSMC` -…