snu-entrance / DJbamboo_wk

1 stars 0 forks source link

DJbamboo 모델링 #4

Open krlee407 opened 6 years ago

krlee407 commented 6 years ago

담당자 : @krlee407, @dhchoi1457

역할 DJbamboo의 내용을 모델로 구현(된 코드를 튜닝)

할 일

krlee407 commented 6 years ago

like/unlike넣어서 log쌓아보자

krlee407 commented 6 years ago

강남 급 모임 내용 그때 이야기 했던거 이슈별로 써줘 @toastls93

krlee407 commented 6 years ago

<현 문제점>

  1. 사연+ 가사 의 전처리 부족
  2. Topic이 4가지 존재(사랑, 등..) 기타 분류 추가 필요 <실험>

Try1. Input : 나는 배고프다. Output: X

Input : 나는 배고프다.*10 Output: X

Input : 나는 배고프다.*50 Output: X

--> Topic에 '배고픔'을 분류시킬 수 없어서 발생한 문제로 보임.

Try2. Input : 오늘 개강했다. 개빡침 Output: Output_1

Input : 오늘 개강했다. 개빡침*10 Output: Output_1

Input : 오늘 개강했다. 개빡침 *50 Output: Output_1

Input : 오늘 개강했다. 개빡침. *50 Output: Output_2

--> 개강, 빡침이라는 단어는 Topic에 분류가 되어서 결과가 나옴. 하지만 마침표 유무에 따라 결과값이 변함. 임베딩과정에서 전처리로 해결할 수 있지 않을까?

<추가 논의사항>

  1. 멜론 노래 1~10,000등 까지 곡 대신 유투브 조회수로 해보는건 어떨까? --> 별로일것 같음

  2. Flask에 test.py를 넣어서 유저가 input 사연을 넣으면 Output은 Json형태로 나오게 해야함.

  3. 한국어 교정이 API찾아보기.

  4. Word2vec 임베딩을 1)가사 + 사연 --> 기존 방식 2)한국어 사전 --> (https://brunch.co.kr/@kakao-it/189) 고민했음.

적혀 있지 않은것이 다면 알려주세요!!

krlee407 commented 6 years ago