Closed MadsBuchmann closed 2 years ago
Læser den her: https://paperswithcode.com/paper/vitpose-simple-vision-transformer-baselines
Post læsning edit: Artiklen præsenterer en model "ViTPose" som kan lære at estimere positur i billeder af mennesker. Grunden til at den her model er interessant er, at selve modellen er strukturelt simplere end de tidligere bedst performende modeller, men er stadig i stand til at konkurrere med dem. Dvs. at selve netværket i encoderen er simplere end andre modeller - De kalder det for en "plain vision transformer" model. Der argumenteres for at modellen skalerer godt. Dvs. performance tanker ikke selvom der trænes markant flere parametre. Der argumenteres for god "transferability". Dvs. hvis encoderen trænes på et sæt lader det til at der er god performance på flere forskellige decodere uden gentræning. Derudover har de 3 forskellige trænede modeller med forskelligt antal parametre og så kan det lade sig gøre at overføre noget viden fra modellen med mange (ca. 1B) parametre til en mindre model, som så gør den bedre.
Takeaways:
Forslag baseret på artiklen
Mega fedt write-up, og jeg kan vildt godt lide, at der gemmer sig et konkret projekt i den.
Et par spørgsmål fra at læse dit write-up, og lige læse lidt om hvad vision transformers er for noget:
I projektbeskrivelsen er det et krav at vi opsætter et neuralt netværk:
"Set up an appropriate deep learning model (i.e., a neural network) to solve the task at hand"
Så hvis ViT's er et neuralt netværk, så synes jeg at det lyder som et dejlig defineret projekt at teste den med nye decoders.
For at have noget at sammenligne, prøver jeg at finde noget om performance på CNN's i pose estimation.
Smider lige lidt resources her som jeg graver:
Jeg læser også videre. Vil gerne se mig lidt omkring inden jeg graver alt for dybt i noget specifikt. Jeg synes det er godt lige at få afklaret om ViT er ok dog 👍 Kan lige svare på 3.: ja det kan den. De andre kender jeg ikke svaret på endnu 😅
@herluf-ba: good point. Jeg får lige afklaret om det skal være en CNN model vi tager udgangspunkt i. Og så scouter jeg efter et funnæh paper eller to i weekenden.
Jeg har ikke læst det hele af den her men den skal nævnes fordi den er sjov: https://arxiv.org/pdf/1909.11229v2.pdf Artiklen arbejder med pose-estimering af heste. (Kæmpe mulighed for at lave en model der hedder hesteNET). Der undersøges om det er effektivt at lave transfer learning via sættet ImageNet (altså træne CNN på imagenet for at lære features og så træne en decoder på heste datasæt til sidst). Det konkluderes at det kan godt lade sig gøre og scorer bedre end en model trænet kun på heste sæt. De tester også med billeder der har "common corruptions" og konkluderer at det også er bedre.
Forslag baseret på (skimme) læsning:
Blocked: #1, måske #3?
Fra project proposal opgaven: