ucharles / gachatory

https://www.gachatory.com
0 stars 0 forks source link

스크래핑 전략 #112

Open ucharles opened 4 months ago

ucharles commented 4 months ago

기본 전략

  1. 캡슐 토이 목록에서 이름, 발매년월, 이미지 링크, 상세 페이지(필수) 링크 등을 수집한다.
  2. DB에서 내용을 조회하여 중복 여부 확인
    • 중복 여부 판단에는 상세 페이지 URL을 사용
    • 성능을 위해 한꺼번에 불러온 뒤 Set 이용
    • Bandai의 경우 재판 여부를 판단하여 DB 갱신 필요, date에 발매년월을 추가해야 함
  3. 필터링된 데이터들의 상세페이지를 스크래핑
    • 이미지까지 수집하므로 스크래핑 성능을 위해 병렬 연산, 철저한 예외처리 필요

브랜드별 전략

Bandai

Takara Tomy Arts

SO-TA

yell-world

J-Dream

형태별 전략

Twitter (X)