deving-playground / rpinder-batch

rpinder-batch
1 stars 0 forks source link

수집기 구현 #9

Open bong-a opened 4 years ago

bong-a commented 4 years ago

requirements

웹 크롤러가 지켜야 하는 규칙

  1. 크롤링 대상 서버에 심하 부하 걸지 않기
  2. 크롤링으로 추출한 콘텐츠의 저작권 지키기
  3. 크롤링 거부 의사를 밝힌 웹 사이트와 웹 페이지는 크롤링하지 않기 ( ※ robots.txt ) [출처] [Java] crawler4j+Jsoup로 간단한 웹 크롤러 만들어보기|작성자 자바킹(http://blog.naver.com/PostView.nhn?blogId=javaking75&logNo=221357838989&categoryNo=18&parentCategoryNo=0&viewDate=&currentPage=1&postListTopCurrentPage=1&from=postView)

브랜치 생성 규칙

{이슈번호}-{영어닉네임}

bong-a commented 4 years ago

14,18,24K 시세 제공하는 사이트 : http://www.koreagoldx.co.kr/marketPrice/pure.asp

wooklab commented 4 years ago

@bong-a @HyunGyu-Lee

bong-a commented 4 years ago

@wooklab 날짜 확인 후 수집하는 로직은 시스템상 오늘 날짜랑 비교하는 로직이면 될까요? 아니면 적재된 날짜 다음날 기준으로 하면 좋을까요? 주말에는 데이터가 업데이트 안되는걸로 알고있어서요~ 시스템상 날짜랑 비교하는게 좋아보이긴 하네요! ㅎㅎ

wooklab commented 4 years ago

@wooklab

날짜 확인 후 수집하는 로직은 시스템상 오늘 날짜랑 비교하는 로직이면 될까요?

아니면 적재된 날짜 다음날 기준으로 하면 좋을까요?

주말에는 데이터가 업데이트 안되는걸로 알고있어서요~ 시스템상 날짜랑 비교하는게 좋아보이긴 하네요! ㅎㅎ

주말에 업데이트가 없군요 ㅠㅠ 시스템 날짜 비교면 될거 같아요!

bong-a commented 4 years ago

@bong-a @HyunGyu-Lee

내부적으로 그래프와 테이블은 iframe으로 호출하고 있네요. 따라서 다음 URL 기준으로 수집하면 될 것 같습니다~ http://goldgold.co.kr/charts/1_price1.php