-
```python
from soynlp.noun import NewsNounExtractor
noun_extractor = NewsNounExtractor(base_noun_dictionary=['단어1'])
```
위와 같이 코드 실행 시, 아래와 같은 오류가 발생합니다
```
-----------------------------------…
-
안녕하세요
오프라인환경에서 한국어임베딩책으로 학습하고 있는 사람입니다.
오프라인환경이기 때문에
"git pull origin master" 실행을 할 수 없는데요, 어떻게 해결할 수 있을까요?
나름 방법을 찾기 위해 soynlp-maser 를 전체 zip 으로 다운받아서 로컬PC에 옮겨두었습니다.
하지만 코드 3-11 '네이버 영화 리뷰 전처리…
-
안녕하세요. `repeat_normalize`를 사용하던 중에 문제가 발생하여 문의드립니다.
다음 코드를 실행하면 원래 'ㅋㅋ'이 나와야 하지만, 'ㅋㅋㅋ'이 그대로 출력됩니다.
다른 글자들도 마찬가지입니다.
```python
from soynlp.normalizer import *
repeat_normalize('ㅋㅋㅋ', num…
-
해당 라이브러리를 사용하기위해 훈련과정이 우선적으로 작동되어야하는데
corpus_path에 해당하는 파일의 데이터 형식을 찾지 못하고 있는데 알려주실 수 있을까요?
예: txt의 줄바꿈으로 문장구분
-
안녕하세요.
RegexTokenizer 내 tokenize 함수를 사용 시, "test"와 같이 단어 중간에 's'가 포함되는 경우, tes t로 분리가 되는 이슈가 있습니다.
RegexTokenizer의 __init__ 내 patterns 중 ('english & latin', re.compile(u"[a-zA-ZÀ-ÿ]+[[`']?**s**]*|…
-
# 🐛 Bug
## Information
Model I am using (Bert, XLNet ...): GPT2-medium & large
Language I am using the model on (English, Chinese ...): Korean (with custom trained tokenizer)
The problem a…
ksjae updated
4 years ago
-
```
corpus = "texts.txt"
model.visualize_words(corpus) #,test.png)
```
학습을 완료하고 해당 코드를 실행시 오류가 발생합니다.
```
---------------------------------------------------------------------------
TypeError…
-
## 내부 사전 단어 확인 방법 질문
안녕하세요 좋은 자료를 이렇게 만들어 주셔서 너무 감사합니다.
komoran 사용에 앞서 궁금한 점이 있어 문의 드립니다.
* 질문1 : 사용자 사전에 추가하기전 해당 단어가 이미 사전에 있는지 확인 하고 싶습니다.
soynlp 등에서 word extractor나 noun extractor 을 제공합니다…
-
**개요**
임베딩 튜토리얼 프로젝트를 만든다
모듈 구성요소는 다음과 같다
- [x] 위키피디어 다운로드 및 전처리
- [x] 네이버 영화 리뷰 다운로드 및 전처리
- [x] [SoyNLP](https://github.com/lovit/soynlp) 활용한 tokenize
- [x] [KoNLPy](http://konlpy.org/en/lat…
-
[pycon2017koreannlp-170809135945.pdf](https://github.com/hyj378/ArtificialIntelligence/files/3252178/pycon2017koreannlp-170809135945.pdf)
soynlp 관련 내용은 27쪽부터 나와있습니다.