herluf-ba / dlfvr

AU - Deep Learning for Visual Recognition
0 stars 0 forks source link

Find 1 til 3 relaterede research papers 📄 #4

Closed MadsBuchmann closed 2 years ago

MadsBuchmann commented 2 years ago

Blocked: #1, måske #3?

Fra project proposal opgaven:

References to 1-3 key research papers of related work

herluf-ba commented 2 years ago

Læser den her: https://paperswithcode.com/paper/vitpose-simple-vision-transformer-baselines

Post læsning edit: Artiklen præsenterer en model "ViTPose" som kan lære at estimere positur i billeder af mennesker. Grunden til at den her model er interessant er, at selve modellen er strukturelt simplere end de tidligere bedst performende modeller, men er stadig i stand til at konkurrere med dem. Dvs. at selve netværket i encoderen er simplere end andre modeller - De kalder det for en "plain vision transformer" model. Der argumenteres for at modellen skalerer godt. Dvs. performance tanker ikke selvom der trænes markant flere parametre. Der argumenteres for god "transferability". Dvs. hvis encoderen trænes på et sæt lader det til at der er god performance på flere forskellige decodere uden gentræning. Derudover har de 3 forskellige trænede modeller med forskelligt antal parametre og så kan det lade sig gøre at overføre noget viden fra modellen med mange (ca. 1B) parametre til en mindre model, som så gør den bedre.

Takeaways:

Forslag baseret på artiklen

MadsBuchmann commented 2 years ago

Mega fedt write-up, og jeg kan vildt godt lide, at der gemmer sig et konkret projekt i den.

Et par spørgsmål fra at læse dit write-up, og lige læse lidt om hvad vision transformers er for noget:

  1. Hvad kunne en mere avanceret decoder være? Mulighed for at grave videre her.
  2. Så vidt jeg kan læse mig frem til, så er en ViT encoder et alternativ til en CNN enconder. Er en ViT en type neuralt netværk? I den her artikel nævner de at transformers er en deep learning teknik. Betyder det implicit det er et neuralt netværk?
  3. Jeg kan se at multi-person pose estimation er en underkategori af opgaver for "pose estimation". Kan den gøre det? Ellers kunne vi undersøge hvordan den ville håndtere det eventuelt.

I projektbeskrivelsen er det et krav at vi opsætter et neuralt netværk:

"Set up an appropriate deep learning model (i.e., a neural network) to solve the task at hand"

Så hvis ViT's er et neuralt netværk, så synes jeg at det lyder som et dejlig defineret projekt at teste den med nye decoders.

For at have noget at sammenligne, prøver jeg at finde noget om performance på CNN's i pose estimation.

Resources

Smider lige lidt resources her som jeg graver:

herluf-ba commented 2 years ago

Jeg læser også videre. Vil gerne se mig lidt omkring inden jeg graver alt for dybt i noget specifikt. Jeg synes det er godt lige at få afklaret om ViT er ok dog 👍 Kan lige svare på 3.: ja det kan den. De andre kender jeg ikke svaret på endnu 😅

MadsBuchmann commented 2 years ago

@herluf-ba: good point. Jeg får lige afklaret om det skal være en CNN model vi tager udgangspunkt i. Og så scouter jeg efter et funnæh paper eller to i weekenden.

herluf-ba commented 2 years ago

Jeg har ikke læst det hele af den her men den skal nævnes fordi den er sjov: https://arxiv.org/pdf/1909.11229v2.pdf Artiklen arbejder med pose-estimering af heste. (Kæmpe mulighed for at lave en model der hedder hesteNET). Der undersøges om det er effektivt at lave transfer learning via sættet ImageNet (altså træne CNN på imagenet for at lære features og så træne en decoder på heste datasæt til sidst). Det konkluderes at det kan godt lade sig gøre og scorer bedre end en model trænet kun på heste sæt. De tester også med billeder der har "common corruptions" og konkluderer at det også er bedre.

Forslag baseret på (skimme) læsning: