shenasa-ai / speech2text

A Deep-Learning-Based Persian Speech Recognition System
MIT License
204 stars 29 forks source link

سوالی در مورد دیتاست ورژن ۲ #5

Closed hamjam closed 1 year ago

hamjam commented 1 year ago

سلام متن دیتاست ورژن ۲ از خروجی مدل ASRای که آموزش دادید گرفته شده؟ چون confidence level داره و گفته بودید که متن‌ها دقیق نیست پرسیدم با تشکر

masoudMZB commented 1 year ago

سلام نه این خروجی ها از مدل صوت به متن خودمون نیست. و وجود confidence level رو برای این اضافه کردیم که اگر در کاری فقط دیتاهای دقت بسیار بالا میخواید راحت تر بتونید فیلتر کنید

ahkarami commented 1 year ago

Hi, Can you please explain how the transcriptions of the files were produced and with what model? Have you used Google API?

masoudMZB commented 1 year ago

Hi @ahkarami Yes, we used Google API to transcribe audio files. As you may know Google API return multiple prediction for an audio, the prediction with best confidence level was chosen

ahkarami commented 1 year ago

Thank you very much for your complete explanation.