당초 AWS Comprehend를 통해 구현하려고 했었던 Keyword Extraction 파트가 AWS Credit 지급이 딜레이됨에 따라 최악의 경우, 직접 모든 모델을 구현해야 할 상황에 놓이게 되었습니다.
이에 대응하기 위해 Github과 여러 논문들의 조사하여, 저희의 목표를 달성하기 위한 알고리즘들, 그리고 그에 대한 오픈 소스 코드를 탐색 중에 있습니다.
먼저, 조사 결과 Learn ON의 구현에 유용하게 사용될 만한 알고리즘은 두 가지가 있습니다.
첫째는 BERT 엔진입니다.
BERT 엔진은 NLP의 한 종류로 기존 NLP가 각 형태소를 분리하여 자연어 처리를 진행했다면, BERT 엔진의 경우에는 한 단어와 그와 인접한 단어 간의 확률적 분포를 기반으로 단어간 연관성 분석을 수행합니다.
이로 인해, 장기간 많은 텍스트 데이터를 학습시켜야 하는 기존 NLP 엔진과 달리 적은 학습 데이터로도 구현이 용이하다는 장점이 있으나, 새로운 데이터 형식이나 정형화되지 않은 데이터에 대해 취약하다는 단점이 있습니다.
둘째는 TF-IDF 토픽 모델링 기법입니다.
해당 기법은 저희가 최우선으로 도입하고자 고민하고 있는 기법이고, AWS Comprehend가 해당 기법을 중심으로 구축되었을 것이라 예상됩니다.
토픽 모델링 기법의 경우, 각 문장에 대해 특정 단어가 특정 그룹에 속할 확률을 추정하고, 가장 높은 확률을 보여주는 그룹에 해당 단어를 배정합니다.
그 결과, 모든 학습이 종료되면, 각 단어들이 적정 그룹에 배치되어 자동 분류되는 결과를 도출할 수 있습니다.
이 두 가지 방법에 대해 도입을 검토 중에 있고 조사하면서 시시 때때로 관련 링크를 코멘트로 달겠습니다.
당초 AWS Comprehend를 통해 구현하려고 했었던 Keyword Extraction 파트가 AWS Credit 지급이 딜레이됨에 따라 최악의 경우, 직접 모든 모델을 구현해야 할 상황에 놓이게 되었습니다.
이에 대응하기 위해 Github과 여러 논문들의 조사하여, 저희의 목표를 달성하기 위한 알고리즘들, 그리고 그에 대한 오픈 소스 코드를 탐색 중에 있습니다.
먼저, 조사 결과 Learn ON의 구현에 유용하게 사용될 만한 알고리즘은 두 가지가 있습니다.
첫째는 BERT 엔진입니다. BERT 엔진은 NLP의 한 종류로 기존 NLP가 각 형태소를 분리하여 자연어 처리를 진행했다면, BERT 엔진의 경우에는 한 단어와 그와 인접한 단어 간의 확률적 분포를 기반으로 단어간 연관성 분석을 수행합니다. 이로 인해, 장기간 많은 텍스트 데이터를 학습시켜야 하는 기존 NLP 엔진과 달리 적은 학습 데이터로도 구현이 용이하다는 장점이 있으나, 새로운 데이터 형식이나 정형화되지 않은 데이터에 대해 취약하다는 단점이 있습니다.
둘째는 TF-IDF 토픽 모델링 기법입니다. 해당 기법은 저희가 최우선으로 도입하고자 고민하고 있는 기법이고, AWS Comprehend가 해당 기법을 중심으로 구축되었을 것이라 예상됩니다. 토픽 모델링 기법의 경우, 각 문장에 대해 특정 단어가 특정 그룹에 속할 확률을 추정하고, 가장 높은 확률을 보여주는 그룹에 해당 단어를 배정합니다. 그 결과, 모든 학습이 종료되면, 각 단어들이 적정 그룹에 배치되어 자동 분류되는 결과를 도출할 수 있습니다.
이 두 가지 방법에 대해 도입을 검토 중에 있고 조사하면서 시시 때때로 관련 링크를 코멘트로 달겠습니다.