boostcampaitech4recsys1 / level1_bookratingprediction_recsys-level1-recsys-02

level1_bookratingprediction_recsys-level1-recsys-02 created by GitHub Classroom
5 stars 6 forks source link

이미지 데이터 null 관련 문제 #17

Closed Jeong-Junhwan closed 1 year ago

Jeong-Junhwan commented 1 year ago

과연 이미지 데이터도 멀쩡할까? 싶어서 뜯어봤습니다. 정확히 짜보지는 않았지만 (1, 1) 크기의 이미지가 41802개가 발견되었습니다.... 총 책의 개수가 15만개 정도니까 4분의 1 가량의 이미지 데이터가 의미가 없는 것 같습니다 1 by 1 이미지 제외 나머지 이미지는 크기는 조금 들쭉날쭉 해도 크게 문제는 없는 것 같습니다.

from PIL import Image
from collections import defaultdict
import pandas as pd

books = pd.read_csv('books.csv')
d = defaultdict(lambda : 0)
for i in range(len(books)):
    d[Image.open(books['img_path'][i]).size] += 1

이 코드로 대충 확인 가능합니다.