Definicija problema
Cilj projekta je izrada Speech-to-text sistema za transkripciju prirodnog govora. Kao ulaz dolazi zvuk u vidu nekog standardnog audio zapisa, a kao izlaz nastaje tekst. Ideja je istražiti da li je moguće obučiti ovakav model delimično nadgledano, sa što manjom količinom označenih podatka.
Skup podataka
Pre-training podaci su snimci koji sadrže govor preuzeti sa youtube-a, kao i skup tekstualnih podataka prirodnog jezika.
Za fine-tuning će se koristiti skup parova (Zvuk, Tekst). Označeni podaci će biti kreirani ručno ili biti preuzeti sa interneta.
Metodologija
1) Treniranje modela za kompresiju i kvantizaciju zvuka govora (VQ-VAE)
2) Treniranje autoregresivnog modela koji vrši predikciju narednog tokena zvuka, nastalih u prethodnom koraku (LSTM i/ili Transformer)
3) Treniranje autoregresivnog modela koji vrši predikciju slova/reči prirodnog jezika u vidu teksta. (LSTM i/ili Transformer)
4) Fine-tunovanje modela iz prethodnog koraka tako da vrši transkripciju govora
Evaluacija
Za evaluaciju će se meriti broj grešaka po broju reči/tokena.
Tim Igor Petrović E9 8/2023
Definicija problema Cilj projekta je izrada Speech-to-text sistema za transkripciju prirodnog govora. Kao ulaz dolazi zvuk u vidu nekog standardnog audio zapisa, a kao izlaz nastaje tekst. Ideja je istražiti da li je moguće obučiti ovakav model delimično nadgledano, sa što manjom količinom označenih podatka.
Skup podataka Pre-training podaci su snimci koji sadrže govor preuzeti sa youtube-a, kao i skup tekstualnih podataka prirodnog jezika. Za fine-tuning će se koristiti skup parova (Zvuk, Tekst). Označeni podaci će biti kreirani ručno ili biti preuzeti sa interneta.
Metodologija 1) Treniranje modela za kompresiju i kvantizaciju zvuka govora (VQ-VAE) 2) Treniranje autoregresivnog modela koji vrši predikciju narednog tokena zvuka, nastalih u prethodnom koraku (LSTM i/ili Transformer) 3) Treniranje autoregresivnog modela koji vrši predikciju slova/reči prirodnog jezika u vidu teksta. (LSTM i/ili Transformer) 4) Fine-tunovanje modela iz prethodnog koraka tako da vrši transkripciju govora
Evaluacija Za evaluaciju će se meriti broj grešaka po broju reči/tokena.