Delimično nadgledana transkripcija prirodnog govora

igorpetrovicbe commented 9 months ago

Tim Igor Petrović E9 8/2023

Definicija problema Cilj projekta je izrada Speech-to-text sistema za transkripciju prirodnog govora. Kao ulaz dolazi zvuk u vidu nekog standardnog audio zapisa, a kao izlaz nastaje tekst. Ideja je istražiti da li je moguće obučiti ovakav model delimično nadgledano, sa što manjom količinom označenih podatka.

Skup podataka Pre-training podaci su snimci koji sadrže govor preuzeti sa youtube-a, kao i skup tekstualnih podataka prirodnog jezika. Za fine-tuning će se koristiti skup parova (Zvuk, Tekst). Označeni podaci će biti kreirani ručno ili biti preuzeti sa interneta.

Metodologija 1) Treniranje modela za kompresiju i kvantizaciju zvuka govora (VQ-VAE) 2) Treniranje autoregresivnog modela koji vrši predikciju narednog tokena zvuka, nastalih u prethodnom koraku (LSTM i/ili Transformer) 3) Treniranje autoregresivnog modela koji vrši predikciju slova/reči prirodnog jezika u vidu teksta. (LSTM i/ili Transformer) 4) Fine-tunovanje modela iz prethodnog koraka tako da vrši transkripciju govora

Evaluacija Za evaluaciju će se meriti broj grešaka po broju reči/tokena.

vdragan1993 commented 9 months ago

Tema odobrena. Ostavite link ka GitHub repozitorijumu projekta. Srećan rad.

igorpetrovicbe commented 4 months ago

https://github.com/igorpetrovicbe/speechgen

ftn-ai-lab / nm-2023

Delimično nadgledana transkripcija prirodnog govora #18