HyunjoonCho / CS492I-IntroToDL-project

Team project repo for CS 492 I <Introduction to Deep Learning>
0 stars 0 forks source link

Web Crawling #2

Open HyunjoonCho opened 3 years ago

HyunjoonCho commented 3 years ago

Must consider legal issues!
List related posts

HyunjoonCho commented 3 years ago

IMPORTFEED

구글 스프레드시트에서 IMPORTFEED 함수를 호출해서 바로 기사를 긁어오는 기능이 있음
다음 블로그 포스트 참고

다음은 직접 돌려본 결과

몇 가지 특징으로

추가로 살펴볼 사항은

HyunjoonCho commented 3 years ago

Pythonic approach

finance data reader와 한 번에 묶어서 돌리고 데이터 수집을 완료할 수 있다는 점이 좋음
참고 블로그 포스트

HyunjoonCho commented 3 years ago

Scrpaing

기본적으로 웹 크롤링은 기존의 복사본을 만들고, 웹 스크래핑은 분석을 위한 특정 데이터를 추출하거나 새로운 것을 만듭니다.

크롤링은 본문 그대로 가져오고, 스크래핑은 parsing, processing까지 포괄하는듯

HyunjoonCho commented 3 years ago

Implementing Simple Scraper

TODOs

Things to Consider

HyunjoonCho commented 3 years ago

Article Filtering