issues
search
jiminchur
/
PlayData-28_Smart-Closet
[Project] 2024.02.19~2024.03.22
0
stars
0
forks
source link
[Data Crawling] 코디 크롤링
#10
Closed
jiminchur
closed
6 months ago
jiminchur
commented
7 months ago
데이터 수집할 부분
코디 아이디
코디 스타일
코드 업로드 날짜
코디 조회수
코디 해시태그
코디 모델 정보 (이름, 키, 몸무게)
코디 착용상품 정보
ohyu628
commented
7 months ago
[3/4] 코디 크롤링 시작
코디숍 페이지를 들어가 최신순으로 코디 스타일 크롤링
Selenium 사용하여 코디 상세페이지 전체 코디 본문에 대한 css selector를 이용해 데이터 크롤링
ohyu628
commented
7 months ago
issue
한번에 전체 코디 본문에 대한 모든 정보를 다 가지고 와서 전처리 하려고 했으나 생각보다 전처리는데 복잡했음
해결을 위한 시도
처음부터 필요한 정보들만 가지고 와서 저장하는 게 좋다고 생각하여 속도 비교를 위해 두개의 코드 작성
전체 코디 본문에 대한 정보를 가지고 오는 코드
코디 본문에서 필요한 정보들을 가지고 와서 분류 해주는 코드 -> 몇 초 차이 나지는 않았지만 b가 생각보다 빠르게 가지고 와져서 b를 사용하기로 결정
해결완료
ohyu628
commented
7 months ago
[3/6] 최적화 코드 완성되어 코디에 대한 전체 데이터 크롤링
크롤링하다 중간에 중단될 가능성이 있어 범위를 1/3씩 나눠서 실행
issue
1/3씩 나눠서 돌리던 도중 마지막 범위의 컬럼수가 18개가 아닌 15개로 가지고 와짐
원인
확인해 본 결과 해당 코드 상세페이지에 설정해놓은 css selector가 없어 컬럼을 제외시키고 가지고 온 것
해결을 위한 시도
css selector가 없더라도 컬럼이 없어지지 않게 null값으로 두는 코드 추가
다른 것과 똑같은 컬럼수 나옴
해결완료
데이터 수집할 부분