Closed Omirax closed 1 year ago
Здравствуйте!
Великолепная работа!
Однако, пока не удалось испробовать склонение. Ubuntu 22, docker, amd64
Просто ничего не происходит. Ксения сообщает, что "У меня было 15". О яблоках - ни слова
/process?INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE&LOCALE=&INPUT_TEXT=У меня было 15 <d>яблоко</d>&VOICE=xenia
Может в настройках надо что-то инициировать?
Спасибо!
Дополнено: Выловил вот такую ошибку:
<torch_package_0>.multi_acc_v3_package.py:196: UserWarning: Current model doesn't support SSML tag: d warnings.warn(f"Current model doesn't support SSML tag: {child.tag}")
Спасибо за баг репорт. Ошибку уже нашел и исправил. Но из-за того, что у меня провайдер лежит. Не могу обновленный образ в docker hub загрузить.
Не проблема. Однако нашел еще одну странность.
Если через HA TTS воспроизведение начинается всегда моментально, то между запросом от Rhasspy и появлением в логах докера строки "GET /process?INPUT_TYPE=....
иногда проходит до 10 секунд.
Пока не получилось отловить закономерность, но иногда проблема присутствует.
На хосте Load average 0.2, w.a. 0.1. IntelAtom 4 ядра, SSD. Одним словом - не загружен.
Но в любом случае не считая бага со склонением - все остальное на высоте.
Не проблема. Однако нашел еще одну странность.
Если через HA TTS воспроизведение начинается всегда моментально, то между запросом от Rhasspy и появлением в логах докера строки
"GET /process?INPUT_TYPE=....
иногда проходит до 10 секунд. Пока не получилось отловить закономерность, но иногда проблема присутствует. На хосте Load average 0.2, w.a. 0.1. IntelAtom 4 ядра, SSD. Одним словом - не загружен.Но в любом случае не считая бага со склонением - все остальное на высоте.
Это особенность SileroTTS. Преобразование текста в речь занимает время. С Home Assistant отрабатывает сразу, потому что НА сохраняет уже заготовленные фразы в кеш. Если вы попробуете запросить уникальный текст, то он тоже будет делаться какое-то время. Но это время почему то больше, чем заявленное. Пока не разобрался с чем это связано.
Это особенность SileroTTS. Преобразование текста в речь занимает время. С Home Assistant отрабатывает сразу, потому что НА сохраняет уже заготовленные фразы в кеш. Если вы попробуете запросить уникальный текст, то он тоже будет делаться какое-то время. Но это время почему то больше, чем заявленное. Пока не разобрался с чем это связано.
Я с НА имею дело очень давно :) Знаю про кэширование.
И уникальный текст пробовал, естественно. Все равно срабатывание быстрее через НА. Но, возможно тут еще особенности Rhasspy с его
['bash', '-c', ' curl -sS -X GET -G --output - --data-urlencode INPUT_TYPE=TEXT --data-urlencode OUTPUT_TYPE=AUDIO --data-urlencode AUDIO=WAVE --data-urlencode LOCALE= --data-urlencode INPUT_TEXT="$0" http://192.168.1.210:9898/process --data-urlencode VOICE=baya', " Текст! <break time='300ms'/> Текст после паузы!"]
P.S. До того, как нашел Ваш проект rhvoice служил верой и правдой. :)
Как будет возможность, обновите докер хаб, пожалуйста.
Как будет возможность, обновите докер хаб, пожалуйста.
Я обновил образ в docker hub.
Здравствуйте!
Великолепная работа!
Однако, пока не удалось испробовать склонение. Ubuntu 22, docker, amd64
Просто ничего не происходит. Ксения сообщает, что "У меня было 15". О яблоках - ни слова
/process?INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE&LOCALE=&INPUT_TEXT=У меня было 15 <d>яблоко</d>&VOICE=xenia
Может в настройках надо что-то инициировать?
Спасибо!
Дополнено: Выловил вот такую ошибку:
<torch_package_0>.multi_acc_v3_package.py:196: UserWarning: Current model doesn't support SSML tag: d warnings.warn(f"Current model doesn't support SSML tag: {child.tag}")