Lip reading (video only)

dovlaper commented 3 years ago

Tim Milena Laketic SW 15/2017 Vladimir Antonic SW2/2015

Asistent Dragan Vidaković

Definicija problema Cilj projekta je čitanje sa usana koristeći samo video podatke.

Motivacija zašto vredi rešavati ovaj problem Dostupnost informacija korisnicima sa posebnim potrebama Jasnije razumevanje u komunikaciji tokom buke

Metodologija Prvi korak u realizaciji je dobavljanje skupa podataka. Podatke je, zatim, potrebno pretprocesirati i to uključuje sledeće:

Detektovanje usana na video snimku otprilike 10fps
Detektovanje stanja usana i mapiranje na slova
Za realizovanje bismo koristili
- 3D-ResNet
- BiGRU
- MixUp
- Label Smooth
- Cosine LR
- Word Boundary

Skup podataka Skup podataka bi bio preuzet sa

Ovi skupovi podataka se sastoje od kratkih snimaka lica koja govore zajedno sa titlovima onoga što je rečeno. Video snimci su značajno raznoliki u kontekstu poze govorioca, osvetljenja, pozadine, etničkog porekla i izraza.

Evaluacija sistema Skup podataka je vec podeljen na trening i testne podatke u odnosu 80:20. Tačnost bismo utvrdili i/ili korišćenjem Accuracy i Word error rate. WER predstavlja odnos zbira obrisanih reči, dodatih reči i izmenjenih reči sa ukupnim brojem izgovorenih reči.

vdragan1993 commented 3 years ago

Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.

spcnz commented 3 years ago

https://github.com/specnazm/lip-reading

ftn-ai-lab / sc-2020-siit

Lip reading (video only) #14