-
## Requirements
- github action 에서 fetch 를 모두 실행시키는 것은 시간이 오래걸리며, kowikitext, namuwikitext 의 경우 사용자가 train data 의 개수를 지정하며 데이터를 로딩합니다.
- AI Hub, 국립국어원 모두의 말뭉치는 저작권 이슈가 있어 직접 local 에 데이터를 다운받아야 하기에 a…
lovit updated
3 years ago
-
사용 예제에서 import하는 모듈명에 `Korpus`가 누락되었습니다.
`KoreanHateSpeech` -> `KoreanHateSpeechKorpus`
`KoreanPetitions` -> `KoreanPetitionsKorpus`
`KorNLI` -> `KorNLIKorpus`
`KorSTS` -> `KorSTSKorpus`
`NSMC` -…
-
여러 종류의 Korpus 로부터 texts 성분만 취하여 이들을 병합하여 언어 모델을 학습할 때 사용할 수 있는 데이터로 정제하는 기능을 CLI 형태로 제공하면 좋을듯 합니다.
lovit updated
4 years ago
-
`KoreanPetitions` 데이터를 예시로 들어보면,
현재 코퍼스의 instance하나를 `KoreanPetition`, 데이터를 `KoreanPetitionsData` 클래스로 구현하고 있고 `KoreanPetitionsData`의 `__getitem__`에서 on-the-fly로 `KoreanPetition` dataclass를 만드는 식으로…
-
현재 아래와 같은 파이썬 패키지로만 fetch 가 가능합니다.
```python
from Korpora import Korpora
Korpora.fetch('all')
```
다음처럼 cli 환경으로 fetch 가 가능하도록 기능을 제공합니다.
```
korpora fetch --corpus nsmc kornli
```
lovit updated
4 years ago
-
In the case of the monolingual model, it is shown that continue learning is possible with STS-type data.
Likewise, is there a way to continue learn with custom data in the 3 multilingual models disc…