(한국어) 텍스트 마이닝을 위한 튜토리얼
텍스트 마이닝을 공부하기 위한 자료입니다. 언어에 상관없이 적용할 수 있는 자연어처리 / 머신러닝 관련 자료도 포함되지만, 한국어 분석을 위한 자료들도 포함됩니다.
- 이 자료는 현재 작업중이며, slide와 jupyter notebook example codes가 포함되어 있습니다.
- 이 자료는 soynlp package를 이용합니다. 한국어 분석을 위한 자연어처리 코드입니다. soynlp 역시 현재 작업중입니다.
- Slides 내용에 관련된 texts 는 blog 에 포스팅 중입니다.
- 실습코드는 코드 repository 에 있습니다.
Contents
- Python basic
- jupyter tutorial
- From text to vector (KoNLPy)
- [x] n-gram
- [x] from text to vector using KoNLPy
- Word extraction and tokenization (Korean)
- [x] word extractor
- [x] unsupervised tokenizer
- [x] noun extractor
- [x] dictionary based pos tagger
- Document classification
- [x] Logistic Regression and Lasso regression
- [x] SVM (linear, RBF)
- [x] k-nearest neighbors classifier
- [x] Feed-forward neural network
- [x] Decision Tree
- [x] Naive Bayes
- Sequential labeling
- [x] Conditional Random Field
- Embedding for representation
- [x] Word2Vec / Doc2Vec
- [x] GloVe
- [x] FastText (word embedding using subword)
- [x] FastText (supervised word embedding)
- [x] Sparse Coding
- [x] Nonnegative Matrix Factorization (NMF) for topic modeling
- Embedding for vector visualization
- [x] MDS, ISOMAP, Locally Linear Embedding, PCA, Kernel PCA
- [x] t-SNE
- [ ] t-SNE (detailed)
- Keyword / Related words analysis
- [x] co-occurrence based keyword / related word analysis
- Document clustering
- [x] k-means is good for document clustering
- [x] DBSCAN, hierarchical, GMM, BGMM are not appropriate for document clustering
- Finding similar documents (neighbor search)
- [x] Random Projection
- [x] Locality Sensitive Hashing
- [x] Inverted Index
- Graph similarity and ranking (centrality)
- [x] SimRank & Random Walk with Restart
- [x] PageRank, HITS, WordRank, TextRank
- [x] kr-wordrank keyword extraction
- String similarity
- [x] Levenshtein / Cosine / Jaccard distance
- Convolutional Neural Network (CNN)
- [x] Introduction of CNN
- [x] Word-level CNN for sentence classification (Yoon Kim)
- [x] Character-level CNN (LeCun)
- [x] BOW-CNN
- Recurrent Neural Network (RNN)
- [x] Introduction of RNN
- [x] LSTM, GRU
- [x] Deep RNN & ELMo
- [x] Sequence to sequence & seq2seq with attention
- [x] Skip-thought vector
- [x] Attention mechanism for sentence classification
- [x] Hierarchical Attention Network (HAN) for document classification
- [x] Transformer & BERT
- Applications
- [x] soyspacing: heuristic Korean space correction
- [x] crf-based Korean soace correction
- [x] HMM & CRF-based part-of-speech tagger (morphological analyzer)
- [ ] semantic movie search using IMDB
- TBD
Thanks to
자료를 리뷰하고 함께 토론해주는 고마운 동료들이 많습니다. 특히 많은 시간과 정성을 들여 도와주는 태욱에게 고마움을 표합니다.