clingku / w2v_kr

This repository includes scripts and text resources related to the task of automatic compositionality detection using word2vec embeddings. We test the applicability of the method to ambiguous phrases for Korean language.
Apache License 2.0
1 stars 0 forks source link

전체계획(6/28 편지) #3

Open hauni opened 7 years ago

hauni commented 7 years ago

마리나, 연우에게,

7월 중에 너댓차례 모여서 word embedding에 관한 공부 목표 및 대략적일 일정

목표: word2vec을 이용하여

  1. 세종말뭉치 word embedding: word2vec활용법 익히기, parameter setting관련 차이점 검토, 세종말뭉치+word2vec의 가능성과 한계 확인하기
  2. 물결21자원 word embedding files 생성
  3. compositionality/idiomaticity 자동 분류를 위한 word embedding값 활용 방안 (첨부된 marina 논문 참고)

일정은 7/14(금), 19(수), 21(금), 25(화), 27(목) 오후 2시로 잠정적으로 잡아두고, 14일에 모여서 조정하기로. 혹시 14일 어려우면 내게 이메일 보내놓을 것. 우선 첫 모임에서는 마리나 논문에서 실제 작업과정 중심으로 한 30분~1시간 설명하고, 사용 가능한 자원들 점검, 추후 필요한 자원 검토, 추후 작업 일정 확인 등으로 구성하면 될 듯.

최재웅

송선생, 부담갖지는 말고 시간 될 때 동참하기를. 선약이 있는 시간대가 있으면 알려주길.

hauni commented 7 years ago

계획과는 좀 달라졌지만, 현재 단기계획 목표는

  1. w2v사용법 공부 - 각자 결과도출까지 과정 성공

  2. 세종의미분석말뭉치(sjSemTag) 기반 w2v 적용가능성 모색 a. sjSemTag이 w2v를 적용하기에 적합한 규모인가? b. parameter 설정에 따라 여러 결과 도출 c. 2b에 따른 결과물 간의 비교척도 설정

  3. 한글위키/나무위키를 이용한 trainging 결과물 도출 a. 자료 구하기 및 전처리(텍스트추출, 태깅) 후 입력자료 만들기 b. 일반 개인용 PC 사양으로 w2v적용이 가능할지, 아니면 GPU 장착 컴퓨터가 필요할지? c. 2c의 결과를 참고하여 두 어개 결과(*.bin)파일 도출

  4. compositional/idiomatic 자동 구분에 word embedding 값이 어느정도까지 기여할 수 있는지? (마리나 논문) a. 중의적 표현들 도출 b. 2b나 3c를 이용하여 word vector갑 도출 c. 4b에 average/PC 등의 통계를 적용하여 4a별 중의성 해소(ambiguity resolution) 성능 비교 (마이나 논문)