Open Mahmood-Taghavi opened 2 months ago
سلام دوست عزیز، خیلی ممنونم از شما! دلیل اینکه خواندن متن محاوره ای میشه، بخاطر پادکست بودن داده های ترینینگ هست، بنده دیتاست رو در آدرس زیر ذخیره کردم. https://huggingface.co/datasets/SadeghK/datacula-pertts-amir
بسیار ممنونم بله در فایلهایی که به اشتراک گذاشتید مشخص هست که حتی بخش آماده سازی داده ها چقدر پیچیده و گسترده بوده. یک سوال بنظر شما ارزش خواهد داشت که از دادگان زیر که اختصاصا برای توسعه متن به گفتار تهیه شده برای ساخت یک صداهای فارسی دیگر با پایه مدلی که آموزش دادید استفاده بشه؟ https://en.persianspeechcorpus.com/ میدونم البته مجوز دادگان صوتی فوق محدودتر هست و به استفاده غیر تجاری محدود میشه.
بنظر من، صداهای فارسی مبتنی بر https://en.persianspeechcorpus.com/ مناسب هستند و مخصوص این کار ضبط شده اند ولی کافی نیستند به نظر من. برای voice cloning ممکنه استفاده بشه کرد ازشون، ولی خب مشکل license داره.
Great job in creating the first applicable open-source AI text to speech for Persian language which has excellent voice quality. I just relized that the amir model in this initial release sometimes sometimes ignore the actual text and read it as a conversational text. This is not what we expect from a text to speech. I belive this problem can be solved by adjusting the text based on what actually was read by the voice talent. This issue is especially problematic if a blind user of computer want to use this text to speech during editing of a document. Imageine what happen!
Input text: رنگینکمان پدیدهای نوری و کمانی است که زمانی که خورشید به قطرات نم و رطوبت جو زمین میتابد باعث ایجاد طیفی از نور در آسمان میشود.
Audio text: رنگینکمان پدیدهای نوری و کمانیه که زمانی که خورشید به قُطرات نم و رطوبت جو زمین میتابد باعث ایجاد طیفی از نور در آسمان میشه.
I could contribute toward solving this issue but don't know where to find the training dataset!