У меня было 15 <d>яблоко</d>

Omirax commented 1 year ago

Здравствуйте!

Великолепная работа!

Однако, пока не удалось испробовать склонение. Ubuntu 22, docker, amd64

Просто ничего не происходит. Ксения сообщает, что "У меня было 15". О яблоках - ни слова /process?INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE&LOCALE=&INPUT_TEXT=У меня было 15 <d>яблоко</d>&VOICE=xenia

Может в настройках надо что-то инициировать?

Спасибо!

Дополнено: Выловил вот такую ошибку: <torch_package_0>.multi_acc_v3_package.py:196: UserWarning: Current model doesn't support SSML tag: d warnings.warn(f"Current model doesn't support SSML tag: {child.tag}")

Navatusein commented 1 year ago

Здравствуйте!

Великолепная работа!

Однако, пока не удалось испробовать склонение. Ubuntu 22, docker, amd64

Просто ничего не происходит. Ксения сообщает, что "У меня было 15". О яблоках - ни слова /process?INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE&LOCALE=&INPUT_TEXT=У меня было 15 <d>яблоко</d>&VOICE=xenia

Может в настройках надо что-то инициировать?

Спасибо!

Дополнено: Выловил вот такую ошибку: <torch_package_0>.multi_acc_v3_package.py:196: UserWarning: Current model doesn't support SSML tag: d warnings.warn(f"Current model doesn't support SSML tag: {child.tag}")

Спасибо за баг репорт. Ошибку уже нашел и исправил. Но из-за того, что у меня провайдер лежит. Не могу обновленный образ в docker hub загрузить.

Omirax commented 1 year ago

Не проблема. Однако нашел еще одну странность.

Если через HA TTS воспроизведение начинается всегда моментально, то между запросом от Rhasspy и появлением в логах докера строки "GET /process?INPUT_TYPE=.... иногда проходит до 10 секунд. Пока не получилось отловить закономерность, но иногда проблема присутствует. На хосте Load average 0.2, w.a. 0.1. IntelAtom 4 ядра, SSD. Одним словом - не загружен.

Но в любом случае не считая бага со склонением - все остальное на высоте.

Navatusein commented 1 year ago

Не проблема. Однако нашел еще одну странность.

Если через HA TTS воспроизведение начинается всегда моментально, то между запросом от Rhasspy и появлением в логах докера строки "GET /process?INPUT_TYPE=.... иногда проходит до 10 секунд. Пока не получилось отловить закономерность, но иногда проблема присутствует. На хосте Load average 0.2, w.a. 0.1. IntelAtom 4 ядра, SSD. Одним словом - не загружен.

Но в любом случае не считая бага со склонением - все остальное на высоте.

Это особенность SileroTTS. Преобразование текста в речь занимает время. С Home Assistant отрабатывает сразу, потому что НА сохраняет уже заготовленные фразы в кеш. Если вы попробуете запросить уникальный текст, то он тоже будет делаться какое-то время. Но это время почему то больше, чем заявленное. Пока не разобрался с чем это связано.

Omirax commented 1 year ago

Это особенность SileroTTS. Преобразование текста в речь занимает время. С Home Assistant отрабатывает сразу, потому что НА сохраняет уже заготовленные фразы в кеш. Если вы попробуете запросить уникальный текст, то он тоже будет делаться какое-то время. Но это время почему то больше, чем заявленное. Пока не разобрался с чем это связано.

Я с НА имею дело очень давно :) Знаю про кэширование. И уникальный текст пробовал, естественно. Все равно срабатывание быстрее через НА. Но, возможно тут еще особенности Rhasspy с его ['bash', '-c', ' curl -sS -X GET -G --output - --data-urlencode INPUT_TYPE=TEXT --data-urlencode OUTPUT_TYPE=AUDIO --data-urlencode AUDIO=WAVE --data-urlencode LOCALE= --data-urlencode INPUT_TEXT="$0" http://192.168.1.210:9898/process --data-urlencode VOICE=baya', " Текст! <break time='300ms'/> Текст после паузы!"]

P.S. До того, как нашел Ваш проект rhvoice служил верой и правдой. :)

Omirax commented 1 year ago

Как будет возможность, обновите докер хаб, пожалуйста.

Navatusein commented 1 year ago

Как будет возможность, обновите докер хаб, пожалуйста.

Я обновил образ в docker hub.

Navatusein / Silero-TTS-Service

У меня было 15 <d>яблоко</d> #2