Open HyunjoonCho opened 2 years ago
Proposal report guideline
두 개씩 나눠서 조사, 내일 저녁 8시 미팅
주식 시장에서 통용되는 문구
뉴스가 공개되기 이전부터 주요 시장 참여자(기관, 외인 등)들은 해당 소식을 파악
뉴스의 공개와 동시에 유입되는 투자 주체들(주로 개인)에게 물량을 떠넘기고 빠진다(혹은 반대로 물량을 쓸어담음)는 이야기
위 명제가 참인지 검증하고 나아가 새로운 기사를 바탕으로 주가 움직임을 예측
Repo on deep learning text classification algorithms
Baseline 제공을 목표로 함, 학습이 빠르고 성능도 준수한 모델은 TextCNN?
WIP1: 개별 모델에 대한 공부 - 해당 플젝에 적용하기 적절한가
WIP2: text vectorization 방안 모색, 이후 regression 진행
end-to-end training architecture를 구상(e.g. FCN)하여 한 번에 학습을 진행?
결국 변동성에 대한 문제 - 학습 결과를 일반화할 수 있는가?
Project Objective
과거의 스키니진, 아디다스 트랙세트 등 한 시대를 풍미했던 아이템들 현재의 남성 패션은 유래없는 춘추전국시대를 맞이하고 있다. 그 안에서 어떻게 현재 남성 패션의 트렌드를 읽어낼 수 있을까? 이 프로젝트는 대한민국 남성들 사이 많이 이용되는 패션 커뮤니티를 이용해 각 커뮤니티 별 유행하는 패션과 종합적인 트렌드를 예측하는 것을 목표로 한다.
Approach/Baselines
각 커뮤니티의 인기글을 모아(크롤링) 본문에 NER model을 적용하여 인기 있는 기업(ORG) 혹은 자주 언급되는 인플루언서(PER) 등의 정보를 얻어낼 수 있음.
Why NER? 본문 속 우리가 집중하는 정보들은 '기업','사람' 등... -> 골라내기 위해!
KoBERT를 이용한 한국어 Named Entity Recognition Task https://github.com/monologg/KoBERT-NER
기존 Bi-LSTM + Attention Model과 BERT 모델의 성능 비교 https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=CFKO201924664108265&oCn=NPAP13263961&dbt=CFKO&journal=NPRO00383455
Plan for training
Naver NLP Challenge 2018의 NER dataset -> NER model training 그 이후에 fine-tuning할 예정?
디젤매니아/나이키매니아/어미새 등 국내의 패션 커뮤니티 돌며 본문 수집
Plan for evaluation
NER model의 결과는 f1-score로 평가하는 것이 일반적인듯?
Risk Management
Text to Neural Network: Automated Neural Network builder based on paper/architecture description/diagram
딥개 과제와 유사한 형태 - 특정 NN 구조가 text/table/diagram으로 주어졌을 때 PyTorch 코드로 반환
Project Objective
대한민국에 분 주식 열풍(가계 보유 주식 1000조원 돌파 등 뉴스) 우리는 기업에 대해 얼마나 알고 투자하고 있는가? 이 프로젝트는 기업의 연간 보고서를 input으로 받아 사람들이 쉽게 읽을 수 있는 요약문을 생성하는 것을 목표로 한다.
Approach/Baselines
Text summarization 기술들 - 추출 요약과 생성 요약
BERT를 기반으로 fine-tuning하는 방식으로(BERTSUM?)
Text summarization의 역사와 BERT+transformer를 적용한 summarization
Fine-tune BERT for Extractive Summarization
Text Summarization with Pretrained Encoders (추출 요약과 생성 요약 모두)
Plan for training
다양한 본문과 요약문 (질문: 꼭 Annual Report 여야 하는가?) WIP
Plan for evaluation
압축률 ROUGE Score: 문서 요약, 기계 번역 등 모델의 성능을 평가하기 위한 지표
Risk Management
형식 맞추기 - 전처리 기업마다 annual report 형식이 다른 데에서 오는 문제. 어떻게 일정한 text 형식으로 통일하여 진행할 것인지
추출 요약과 생성 요약
Data set 관련 원하는 형식의 data set을 구하기 어려울 듯??
1011 미팅
Annual Report Summarization
기존 데이터셋에 annual report를 추가해서 BERT, BERTSUM 모델을 학습 -> 요약본을 제시
한, 영 모델에는 큰 차이가 없음
annual report - 영어는 일관된 양식, 한국은 기업마다 차이 존재
Buy the rumor, Sell the news
input = news, output = 주가 변동폭
text vectorization + vector to numerical value, 두 단계를 하나의 model로 학습 진행
Fashion Trend Prediction
NER 고도화? "야상", "MA-1" 등 패션 아이템에 대한 태깅을 제대로 하는 것이 목표
trend prediction에 딥러닝을 적용하는게 아니라 NER을 미리 적용해서 분석(통계적)을 수월하게 만듦
각 주제에 대해 세밀한 검토를 하기 전 우선 아이디어 중심으로 제안
Risk Managing이 어려움