Ovi skupovi podataka se sastoje od kratkih snimaka lica koja govore zajedno sa titlovima onoga što je rečeno. Video snimci su značajno raznoliki u kontekstu poze govorioca, osvetljenja, pozadine, etničkog porekla i izraza.
Evaluacija sistema
Skup podataka je vec podeljen na trening i testne podatke u odnosu 80:20. Tačnost bismo utvrdili i/ili korišćenjem Accuracy i Word error rate. WER predstavlja odnos zbira obrisanih reči, dodatih reči i izmenjenih reči sa ukupnim brojem izgovorenih reči.
Tim Milena Laketic SW 15/2017 Vladimir Antonic SW2/2015
Asistent Dragan Vidaković
Definicija problema Cilj projekta je čitanje sa usana koristeći samo video podatke.
Motivacija zašto vredi rešavati ovaj problem Dostupnost informacija korisnicima sa posebnim potrebama Jasnije razumevanje u komunikaciji tokom buke
Metodologija Prvi korak u realizaciji je dobavljanje skupa podataka. Podatke je, zatim, potrebno pretprocesirati i to uključuje sledeće:
Skup podataka Skup podataka bi bio preuzet sa
https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs2.html?fbclid=IwAR0gyoZ8-tFHN5dzPGZqz4wvtK7tGxDbBYovozv_E6WFqdeq1Jkodou8iNQ
https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html
Ovi skupovi podataka se sastoje od kratkih snimaka lica koja govore zajedno sa titlovima onoga što je rečeno. Video snimci su značajno raznoliki u kontekstu poze govorioca, osvetljenja, pozadine, etničkog porekla i izraza.
Evaluacija sistema Skup podataka je vec podeljen na trening i testne podatke u odnosu 80:20. Tačnost bismo utvrdili i/ili korišćenjem Accuracy i Word error rate. WER predstavlja odnos zbira obrisanih reči, dodatih reči i izmenjenih reči sa ukupnim brojem izgovorenih reči.