yunakim2 / OpenSourceProject

2 stars 3 forks source link

뉴스데이터 품질개선 #27

Open wolfrev0 opened 3 years ago

wolfrev0 commented 3 years ago

문제 1일에 뉴스 A,B,C와 주가 x%p 변동을 수집하고, 뉴스 A가 주가에 큰 영향을 주고 뉴스 B,C가 의미없는 기사일때, 현재는 A B C에 모두 x%p로 라벨링해서 동일한 중요도로 처리해주고 있어서 학습에 굉장히 악영향이 있을듯

대안 주가변동라벨 1개당 뉴스 1개만 수집(검색 첫결과의 뉴스) 혹은 2개 수집하여 연결

기타 변동이 거의 없는 일자는 아예 데이터에서 제거하는것도 고려해보자. 주의점: 일자 제거시 [공휴|공휴|제외|공휴|공휴|영업] 일때 영업일에 영향을 주는건 제외 이후 2개의 공휴일과 영업일의 기사이다.

문제2 [원본보기], ▲ 등 불필요한 메타데이터(?) 들을 제거하면 성능향상에 도움이 될거같다.

방법
메타데이터 형태에 따라 정규식을 만들어 인식하고 제거하면 될듯함