issues
search
ratsgo
/
embedding
한국어 임베딩 (Sentence Embeddings Using Korean Corpora)
https://ratsgo.github.io/embedding
MIT License
452
stars
129
forks
source link
전체 프로젝트 개요
#1
Closed
ratsgo
closed
5 years ago
ratsgo
commented
5 years ago
개요
임베딩 튜토리얼 프로젝트를 만든다 모듈 구성요소는 다음과 같다
[x] 위키피디어 다운로드 및 전처리
[x] 네이버 영화 리뷰 다운로드 및 전처리
[x]
SoyNLP
활용한 tokenize
[x]
KoNLPy
활용한 tokenize
[x]
Khai
활용한 tokenize
[x]
SoyNLP
활용한 Co-occurrence matrix 구축
[x]
사이킷런
활용한 SVD
[x]
gensim
활용한 Word2Vec
[x]
FastText
[x]
GloVe
[x]
Swivel
[x] Weighted Word Embeding
[x]
Bokeh
활용한 시각화 프로젝트
[ ] pLSA
[x]
gensim
활용한 LDA
[x]
gensim
활용한 Doc2Vec
[x]
ELMo
[x] GPT
[x]
BERT
[ ] Feature-based learning
[x] Fine tune
ratsgo
commented
5 years ago
디렉토리 구조
root -- preprocess : data scraping, data download, tokenize, ... -- cooc : Word-Context, Term-Document Matrix 등 구축 -- word-level-models : Word2Vec, FastText, ... -- sentence-level-models : LDA, ELMo, BERT, ...
개요 임베딩 튜토리얼 프로젝트를 만든다 모듈 구성요소는 다음과 같다