emkarcinos / AITech-flats

Projekt magisterski AITech - klasyfikacja stylu wnętrz mieszkań i transfer stylu
Apache License 2.0
2 stars 0 forks source link

Docelowy dataset do labelowania #51

Open Adelionek opened 1 year ago

Adelionek commented 1 year ago

W tym zadaniu należy:

  1. Ustalić jaki dataset przekazujemy do labelownia.
    • Czy jest potrzeba aby zescrapować więcej zdjęć? Te z OLX'a scrapowalem dość dawno, dodatkowo były zrobione filtry na używane i od osób prywatnych. Myślę, że mogło wjechać sporo nowych ogłoszeń. Myślicie, że warto puścić to jeszcze raz z trochę innymi filtrami lub nawet tymi samymi?
    • Czy labelujemy tylko dane z OLX'a? Te z Houzza są wstępnie poklasyfikowane (wg mnie mało precyzyjnie). Jednak chyba lepiej poświęcić zasoby do labelowania na te bardziej realne dane.
    • Co robimy z zdjęciami co mają watermarki? Center crop każdego zdjęcia? Usuwanie watermarków w jakiejś stronce? Skipowanie tych zdjęć?
  2. Wrzucić dataset do naszego środowiska na Azure.
  3. Spiąć nowy dataset z toolem do labelowania i przygotować nowy projekt do labelowania.

Punkt 1 jest pilny ponieważ nie będziemy robili labelowania wielokrotnie, tylko jeden raz. Obecnie mamy 50/50 zdjęć z Houzz i OLX.

Adelionek commented 1 year ago

Według mnie: 1a. Można by doscrapować więcej zdjęć z OLX'a. Nie jestem pewien odnośnie tych filtrów. Mam wrażenie, że używane + od osób prywatnych będą bardziej realne. Z drugiej strony ta pula może mieć mniej zdjęć, które mają jakikolwiek styl. 1b. Tylko OLX. 1c. Nie mam pojęcia. Najłatwiejsza wydaje się opcja zebrania bardzo dużej ilości zdjęć i skipowania jak będzie watermark.

Adelionek commented 1 year ago

@emkarcinos @ulaniuk - Mogę zająć się scrapowaniem i pkt 2 i 3 ale proszę o wasz input odnośnie pkt 1.

ulaniuk commented 1 year ago

1a. Możesz dorzucić nowe, nie zaszkodzi. Pewnie trzeba będzie ręcznie poszukać przykładów stylu zakopiańskiego itd. 1b. Myśle że jest tak, że na danych z OLX jest dużo ciężej określić styl, a na tych z Houzz jednak coś tam jest, nawet jeśli nie jest to dokładne. 1c. Imo te ze znakiem wodnym do pominięcia póki co, jeśli chcemy się skupiać na jak najbardziej realnych zdjęciach. Jeśli na zdjęciu jest znak wodny, to foto jest zrobione przez jakieś biuro i może nie odzwierciedlać wystroju na co dzień (inne światło, kąty, poziom czystości, dekoracje itd.). Może nam starczy to co jest bez watermarków.