issues
search
themajormap
/
majormap-issues
0
stars
0
forks
source link
[NX] Jupyter Notebook 파일들 중에 중복되는 로직 정리
#27
Closed
ghost
closed
4 years ago
ghost
commented
4 years ago
AS IS
_artifacts_/notebooks/jihun 디렉토리 이하에 ipynb 파일 4개가 있으며 로직들이 혼재되어있음.
TO BE
중복 또는 현재 작동하지 않는 코드 삭제
excel data 기반에서 폴더 구조에 따라 텍스트를 읽어서 데이터를 처리하도록 수정 (현재 국내 대학 7개, 미국 대학 6 개에 대해 구조화가 되어있음.)
TASKS
[x] 폴더 구조를 읽어 Word2Vec 연산 후 300차원 워드 임베딩 벡터 공간 객체 생성하는 로직 정리
[x] Word2Vec 객체를 PCA 기법을 이용해 2차원으로 축소하고 seaborn 라이브러리를 이용해 시각화하는 로직 정리
[x] 폴더 구조를 읽어 TF-IDF 연산 후 Document 의 end-to-end similarity를 가지고 있는 Array 객체를 생성하는 로직 정리
[x] TF-IDF Vector를 이용해 Document 내의 Top100 키워드를 추출하는 로직 정리
[x] Top 100 키워드를 이용해 Word2Vec 객체의 subset을 구하는 로직 정리
SCHEDULE
10월 16일 까지 완료
ISSUE CHANGE LOG
2020/10/13 11:00 - 최초 작성 by 제임스
AS IS
_artifacts_/notebooks/jihun 디렉토리 이하에 ipynb 파일 4개가 있으며 로직들이 혼재되어있음.
TO BE
TASKS
SCHEDULE
ISSUE CHANGE LOG