naver-airush / NAVER-AI-RUSH

41 stars 20 forks source link

spam-1 데이터셋에 대해 질문드립니다. #41

Closed Kitsunetic closed 4 years ago

Kitsunetic commented 4 years ago

Informations

CLI

WEB

What is your login ID? Kitsunetic

Question 데이터셋과 관련해서 몇 가지 질문이 있어서 이슈 남깁니다.


  1. 데이터셋 내용에 대해서는 보안 이유로 참가자가 확인할 수 없는게 맞나요? (예: 사진을 직접 보는 것)
  2. 1이 맞다면, 한 번 처리된 출력값(CNN을 통과하고 나온 출력 feature map 등)도 직접 확인이 불가능한가요?
  3. labeled 데이터는 4가지 클래스 뿐인가요? (normal, screenshot, monotone, unknown)
  4. 데이터셋에서 각 클래스별 분포를 알 수 있을까요?
  5. unknown 클래스는 나머지 3가지 클래스에 포함되지 않는 경우를 의미하나요, 아니면 unknown이라는 클래스가 따로 존재하는건가요?
  6. 오늘 예제 이미지를 업로드해주셨는데, 이 이미지도 PC에서 찍은 screenshot이라서 개인적으로 screenshot 클래스와의 차이점이 잘 이해가 가지 않습니다...

감사합니다.

redleaf-kim commented 4 years ago

spam폴더에 있는 description에 따르면

클래스는 다음과 같고 (normal, monotone, screenshot, unknown, unlabeled)

각각 0, 1, 2, 3, -1 라벨값이 할당되어 있습니다.

wookiekim commented 4 years ago
  1. 그렇다고 언급하신 것 같습니다.

  2. 저도 궁금하네요

  3. 그렇다고 언급하신 것 같습니다.

  4. Dataloader를 Pytorch로 구현하며 확인해본 결과,

    normal 61945
    monotone 649
    screenshot 1284
    unknown 4601
    unlabeled 128396

    인 것 같습니다.

  5. unknown이라는 다른 클라스가 존재합니다.

  6. screenshot클래스는 naver shopping website의 스크린샷을 가지고 있는 것이라고 README에 언급되어 있던 것 같습니다! 따라서 다른 화면의 스크린샷은 unknown으로 분류된 게 아닐까 싶습니다.

Kitsunetic commented 4 years ago

감사합니다. 해결되었습니다.

제가 spam/README.md를 제대로 확인을 못해봤던 것 같습니다.