SadeghKrmi / pertts-streamlit

Persian text-to-speech streamlit interface
https://tts.datacula.com/
Apache License 2.0
18 stars 2 forks source link

speech sometimes differs from the actual text #4

Open Mahmood-Taghavi opened 2 months ago

Mahmood-Taghavi commented 2 months ago

Great job in creating the first applicable open-source AI text to speech for Persian language which has excellent voice quality. I just relized that the amir model in this initial release sometimes sometimes ignore the actual text and read it as a conversational text. This is not what we expect from a text to speech. I belive this problem can be solved by adjusting the text based on what actually was read by the voice talent. This issue is especially problematic if a blind user of computer want to use this text to speech during editing of a document. Imageine what happen!

Input text: رنگین‌کمان پدیده‌ای نوری و کمانی است که زمانی که خورشید به قطرات نم و رطوبت جو زمین می‌تابد باعث ایجاد طیفی از نور در آسمان می‌شود.

Audio text: رنگین‌کمان پدیده‌ای نوری و کمانیه که زمانی که خورشید به قُطرات نم و رطوبت جو زمین می‌تابد باعث ایجاد طیفی از نور در آسمان می‌شه.

I could contribute toward solving this issue but don't know where to find the training dataset!

SadeghKrmi commented 2 months ago

سلام دوست عزیز، خیلی ممنونم از شما! دلیل اینکه خواندن متن محاوره ای میشه، بخاطر پادکست بودن داده های ترینینگ هست، بنده دیتاست رو در آدرس زیر ذخیره کردم. https://huggingface.co/datasets/SadeghK/datacula-pertts-amir

Mahmood-Taghavi commented 2 months ago

بسیار ممنونم بله در فایلهایی که به اشتراک گذاشتید مشخص هست که حتی بخش آماده سازی داده ها چقدر پیچیده و گسترده بوده. یک سوال بنظر شما ارزش خواهد داشت که از دادگان زیر که اختصاصا برای توسعه متن به گفتار تهیه شده برای ساخت یک صداهای فارسی دیگر با پایه مدلی که آموزش دادید استفاده بشه؟ https://en.persianspeechcorpus.com/ میدونم البته مجوز دادگان صوتی فوق محدودتر هست و به استفاده غیر تجاری محدود میشه.

SadeghKrmi commented 2 months ago

بنظر من، صداهای فارسی مبتنی بر https://en.persianspeechcorpus.com/ مناسب هستند و مخصوص این کار ضبط شده اند ولی کافی نیستند به نظر من. برای voice cloning ممکنه استفاده بشه کرد ازشون، ولی خب مشکل license داره.