Komunikacija govorom jeste najprirodniji i najbrži vid komunikacije između ljudi, a poslednjih godina je sve popularniji i pri interakciji ljudi sa računarima tj. programima (pametni AI asistentit poput Siri i Alekse, voice search, voice typing...).
Ideja projekta jeste fine tuning postojecih STT (speech to text) modela baziranih na transformerima, za specifican problem zadavanja određenog skupa komandi na srpskom jeziku, koje bi se zatim transkriptovale u tekst, na osnovu kog bi AI agent prepoznao neku od predefinisanih komandi i izvršio predefinisanu akciju (pretraživanje interneta za zadati prompt, puštanje željene pesme, podaci o prognozi, slanje mail-a/poruke...) - konkretne naredbe će biti naknadno definisane. Omogućiće se i integracija agenta sa ChatGPT API-jem (ili API-jem sličnih besplatnih alternativa), za dobijanje odgovora na vokalne prompt-ove.
Algoritmi
Projekat će se baviti finim podešavanjem pre-trained encoder-decoder transformera (Whisper ili sličnih modela). Dodatno obučavanje biće odrađeno u cilju poboljšanja performansi za zadati problem.
Podaci koji se koriste
Koristiće se Common Voice dataset za srpski jezik, kao i dodatni pogodni izvori podataka i datasetovi, po potrebi.
Metrika za merenje performansi
Procenat uspešnosti odnosiće se na uspešnost finog podešavanja odabranog STT modela, merenog procentom tačno transkriptovanih reči iz audio snimka izgovorenih komandi. Takođe će uzeto u obzir biti i to da je za potrebe AI asistenta dovoljno prepoznati kontekst komande dovoljno dobro, ne i nužno 100% tačno pretočiti govor u tekst. Izvršiće se i poređenje rezultata početnog i fine-tuned modela.
Validacija rešenja
Skup podataka će biti podeljen na trening i test skup.
Članovi tima
SV3/2020 Tina Mihajlović (grupa 1)
Asistent
Marko Njegomir
Problem koji se rešava
Komunikacija govorom jeste najprirodniji i najbrži vid komunikacije između ljudi, a poslednjih godina je sve popularniji i pri interakciji ljudi sa računarima tj. programima (pametni AI asistentit poput Siri i Alekse, voice search, voice typing...). Ideja projekta jeste fine tuning postojecih STT (speech to text) modela baziranih na transformerima, za specifican problem zadavanja određenog skupa komandi na srpskom jeziku, koje bi se zatim transkriptovale u tekst, na osnovu kog bi AI agent prepoznao neku od predefinisanih komandi i izvršio predefinisanu akciju (pretraživanje interneta za zadati prompt, puštanje željene pesme, podaci o prognozi, slanje mail-a/poruke...) - konkretne naredbe će biti naknadno definisane. Omogućiće se i integracija agenta sa ChatGPT API-jem (ili API-jem sličnih besplatnih alternativa), za dobijanje odgovora na vokalne prompt-ove.
Algoritmi
Projekat će se baviti finim podešavanjem pre-trained encoder-decoder transformera (Whisper ili sličnih modela). Dodatno obučavanje biće odrađeno u cilju poboljšanja performansi za zadati problem.
Podaci koji se koriste
Koristiće se Common Voice dataset za srpski jezik, kao i dodatni pogodni izvori podataka i datasetovi, po potrebi.
Metrika za merenje performansi
Procenat uspešnosti odnosiće se na uspešnost finog podešavanja odabranog STT modela, merenog procentom tačno transkriptovanih reči iz audio snimka izgovorenih komandi. Takođe će uzeto u obzir biti i to da je za potrebe AI asistenta dovoljno prepoznati kontekst komande dovoljno dobro, ne i nužno 100% tačno pretočiti govor u tekst. Izvršiće se i poređenje rezultata početnog i fine-tuned modela.
Validacija rešenja
Skup podataka će biti podeljen na trening i test skup.