ftn-ai-lab / sc-2020-siit

Soft Computing - 2020 - Sotversko inženjerstvo i informacione tehnologije
MIT License
3 stars 4 forks source link

Lip reading (video only) #14

Closed dovlaper closed 3 years ago

dovlaper commented 3 years ago

Tim Milena Laketic SW 15/2017 Vladimir Antonic SW2/2015

Asistent Dragan Vidaković

Definicija problema Cilj projekta je čitanje sa usana koristeći samo video podatke.

Motivacija zašto vredi rešavati ovaj problem Dostupnost informacija korisnicima sa posebnim potrebama Jasnije razumevanje u komunikaciji tokom buke

Metodologija Prvi korak u realizaciji je dobavljanje skupa podataka. Podatke je, zatim, potrebno pretprocesirati i to uključuje sledeće:

Skup podataka Skup podataka bi bio preuzet sa

  1. https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs2.html?fbclid=IwAR0gyoZ8-tFHN5dzPGZqz4wvtK7tGxDbBYovozv_E6WFqdeq1Jkodou8iNQ

  2. https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html

Ovi skupovi podataka se sastoje od kratkih snimaka lica koja govore zajedno sa titlovima onoga što je rečeno. Video snimci su značajno raznoliki u kontekstu poze govorioca, osvetljenja, pozadine, etničkog porekla i izraza.

Evaluacija sistema Skup podataka je vec podeljen na trening i testne podatke u odnosu 80:20. Tačnost bismo utvrdili i/ili korišćenjem Accuracy i Word error rate. WER predstavlja odnos zbira obrisanih reči, dodatih reči i izmenjenih reči sa ukupnim brojem izgovorenih reči.

vdragan1993 commented 3 years ago

Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.

spcnz commented 3 years ago

https://github.com/specnazm/lip-reading