Procena dubine je zadatak merenja udaljenosti svakog piksela u odnosu na kameru. Dubina se može izdvajati iz monokularne slike ili stereo (ili više) slika. Tačna procena dubine sa slika je jedna od fundamentalnih zadataka u kompjuterskoj viziji koji ima raznoliku primenu u mnogim aplikacijama uključujući razumevanje scene, segmentacija slike, rekonstrukcija 3D scene iz 2D slike itd.
Cilj ovog projekta je izrada modela za procenu dubine iz monokularne slike koristeći se konvolutivnom neurnonskom mrežom (CNN) uz pomoć transfer learning-a koristeći pretrenirani model za rešavanje problema segmentacije slike.
Skup podataka:
Za ovaj projekat koristiće se KITTI baza podataka: https://www.cvlibs.net/datasets/kitti/eval_depth_all.php
KITTI je skup podataka koji obezbeđuje stereo slike i odgovarajuće 3D lasersko skeniranje spoljnih scena snimljenih korišćenjem specijalnom opremom montiranom na vozilo u pokretu. Za treniranje našeg modela koristićemo slike samo iz jednog pogleda.
Metodologija:
Koristiće se standardna encoder-decoder arhitektura, u kojoj će encoder biti zasnovan na SegNet mreži gde ćemo ukloniti gornje slojeve koji su povezani sa zadatkom segmentacije, dok ćemo za decoder koristiti nekoliko konvolucionih slojeva.
Metod evaluacije:
Za metodu evaluacije koristiće se par standardnih metrika greške kao što su prosečna relativna greška, srednja kvadratna greška itd. Pored poređenja rezultata sa postojećim tačnim labelama, poredićemo rezultate i sa rezultatima iz rada na koji se oslanjamo gde će ključna razlika našeg modela od njegovog biti u tome što oni koriste za encoder pretreniran model za klasfikaciju slika a mi ćemo koristiti pretreniran model za segmentaciju slika.
Tim:
Snežana Popović E9 6/2023
Github repozitorijum:
https://github.com/snezana-popovic/mono-depth-estimation
Definicija problema:
Procena dubine je zadatak merenja udaljenosti svakog piksela u odnosu na kameru. Dubina se može izdvajati iz monokularne slike ili stereo (ili više) slika. Tačna procena dubine sa slika je jedna od fundamentalnih zadataka u kompjuterskoj viziji koji ima raznoliku primenu u mnogim aplikacijama uključujući razumevanje scene, segmentacija slike, rekonstrukcija 3D scene iz 2D slike itd. Cilj ovog projekta je izrada modela za procenu dubine iz monokularne slike koristeći se konvolutivnom neurnonskom mrežom (CNN) uz pomoć transfer learning-a koristeći pretrenirani model za rešavanje problema segmentacije slike.
Skup podataka:
Za ovaj projekat koristiće se KITTI baza podataka: https://www.cvlibs.net/datasets/kitti/eval_depth_all.php KITTI je skup podataka koji obezbeđuje stereo slike i odgovarajuće 3D lasersko skeniranje spoljnih scena snimljenih korišćenjem specijalnom opremom montiranom na vozilo u pokretu. Za treniranje našeg modela koristićemo slike samo iz jednog pogleda.
Metodologija:
Koristiće se standardna encoder-decoder arhitektura, u kojoj će encoder biti zasnovan na SegNet mreži gde ćemo ukloniti gornje slojeve koji su povezani sa zadatkom segmentacije, dok ćemo za decoder koristiti nekoliko konvolucionih slojeva.
Metod evaluacije:
Za metodu evaluacije koristiće se par standardnih metrika greške kao što su prosečna relativna greška, srednja kvadratna greška itd. Pored poređenja rezultata sa postojećim tačnim labelama, poredićemo rezultate i sa rezultatima iz rada na koji se oslanjamo gde će ključna razlika našeg modela od njegovog biti u tome što oni koriste za encoder pretreniran model za klasfikaciju slika a mi ćemo koristiti pretreniran model za segmentaciju slika.
Link do rada na koji se oslanjamo: https://arxiv.org/pdf/1812.11941v2.pdf