Find 1 til 3 relaterede research papers 📄

MadsBuchmann commented 2 years ago

Blocked: #1, måske #3?

Fra project proposal opgaven:

References to 1-3 key research papers of related work

herluf-ba commented 2 years ago

Læser den her: https://paperswithcode.com/paper/vitpose-simple-vision-transformer-baselines

Post læsning edit: Artiklen præsenterer en model "ViTPose" som kan lære at estimere positur i billeder af mennesker. Grunden til at den her model er interessant er, at selve modellen er strukturelt simplere end de tidligere bedst performende modeller, men er stadig i stand til at konkurrere med dem. Dvs. at selve netværket i encoderen er simplere end andre modeller - De kalder det for en "plain vision transformer" model. Der argumenteres for at modellen skalerer godt. Dvs. performance tanker ikke selvom der trænes markant flere parametre. Der argumenteres for god "transferability". Dvs. hvis encoderen trænes på et sæt lader det til at der er god performance på flere forskellige decodere uden gentræning. Derudover har de 3 forskellige trænede modeller med forskelligt antal parametre og så kan det lade sig gøre at overføre noget viden fra modellen med mange (ca. 1B) parametre til en mindre model, som så gør den bedre.

Takeaways:

En transformer based model er simplere end andre "state of the art modeller" men kan performe godt.
Generelt lader der til at være en trend med at hvis man kan få en strukturelt simplere model til at performe godt er det nice.
Der er andre parametre end "god til at løse opgaven" der kan optimeres på. Artiklen lægger vægt på modellens "scalability" og "transferability" som kerne grunde til hvorfor modellen er intressant.
Artiklen har en "Subjective Results" sektion hvor de viser billeder med estimerede poses ovenpå. Det var nice

Forslag baseret på artiklen

Forsøge at gøre noget tilsvarende til ViTPose men for et andet problem. Artiklen forslår selv "Keypoint detection" og "Animal Pose Estimantion".
Træne VitPose med en mere kompliceret decoder (Forslået i artiklen)

MadsBuchmann commented 2 years ago

Mega fedt write-up, og jeg kan vildt godt lide, at der gemmer sig et konkret projekt i den.

Et par spørgsmål fra at læse dit write-up, og lige læse lidt om hvad vision transformers er for noget:

Hvad kunne en mere avanceret decoder være? Mulighed for at grave videre her.
Så vidt jeg kan læse mig frem til, så er en ViT encoder et alternativ til en CNN enconder. Er en ViT en type neuralt netværk? I den her artikel nævner de at transformers er en deep learning teknik. Betyder det implicit det er et neuralt netværk?
Jeg kan se at multi-person pose estimation er en underkategori af opgaver for "pose estimation". Kan den gøre det? Ellers kunne vi undersøge hvordan den ville håndtere det eventuelt.

I projektbeskrivelsen er det et krav at vi opsætter et neuralt netværk:

"Set up an appropriate deep learning model (i.e., a neural network) to solve the task at hand"

Så hvis ViT's er et neuralt netværk, så synes jeg at det lyder som et dejlig defineret projekt at teste den med nye decoders.

For at have noget at sammenligne, prøver jeg at finde noget om performance på CNN's i pose estimation.

Resources

Smider lige lidt resources her som jeg graver:

Google Research vision transformer repo
An image is worth 16x16 words: Transformers for recognition at scale (paper der introducere ViT's)
Vision transformers are robust learners (Sammenligner state of the art CNN's med ViT's)

herluf-ba commented 2 years ago

Jeg læser også videre. Vil gerne se mig lidt omkring inden jeg graver alt for dybt i noget specifikt. Jeg synes det er godt lige at få afklaret om ViT er ok dog 👍 Kan lige svare på 3.: ja det kan den. De andre kender jeg ikke svaret på endnu 😅

MadsBuchmann commented 2 years ago

@herluf-ba: good point. Jeg får lige afklaret om det skal være en CNN model vi tager udgangspunkt i. Og så scouter jeg efter et funnæh paper eller to i weekenden.

herluf-ba commented 2 years ago

Jeg har ikke læst det hele af den her men den skal nævnes fordi den er sjov: https://arxiv.org/pdf/1909.11229v2.pdf Artiklen arbejder med pose-estimering af heste. (Kæmpe mulighed for at lave en model der hedder hesteNET). Der undersøges om det er effektivt at lave transfer learning via sættet ImageNet (altså træne CNN på imagenet for at lære features og så træne en decoder på heste datasæt til sidst). Det konkluderes at det kan godt lade sig gøre og scorer bedre end en model trænet kun på heste sæt. De tester også med billeder der har "common corruptions" og konkluderer at det også er bedre.

Forslag baseret på (skimme) læsning:

Lav transfer learning via imageNET til et specifikt problem (Gerne hvor der er et meget lille datasæt tilgængeligt.)
Det er sjovt at lave modeller med dyr der kan fører til sjove model navne: HesteNET, SpiderNET, FishNET

herluf-ba / dlfvr

Find 1 til 3 relaterede research papers 📄 #4

Resources