thorstenMueller / Thorsten-Voice

Thorsten-Voice: A free to use, offline working, high quality german TTS voice should be available for every project without any license struggling.
http://www.thorsten-voice.de
Creative Commons Zero v1.0 Universal
553 stars 52 forks source link

Probleme mit der Aussprache #68

Open 1manfactory opened 3 months ago

1manfactory commented 3 months ago

"Einst saß ein hungriger Fuchs unter einem Baum. Er sah einen Raben, der ein Stück Käse im Schnabel hielt, hoch oben auf einem Ast sitzen. Der Fuchs, listig wie er war, dachte sich einen Plan aus, um den Käse zu bekommen."

leider spricht dein Projekt "saß" wie "sah" aus. Schade.

GithubAnon0000 commented 3 months ago

"Einst saß ein hungriger Fuchs unter einem Baum. Er sah einen Raben, der ein Stück Käse im Schnabel hielt, hoch oben auf einem Ast sitzen. Der Fuchs, listig wie er war, dachte sich einen Plan aus, um den Käse zu bekommen."

leider spricht dein Projekt "saß" wie "sah" aus. Schade.

Mit piper, welches die Wörterbücher von espeak-ng verwendet, und Thorstens Hochdeutsch Stimme besteht das Problem bei mir nicht (siehe OUTPUT.zip).

Wobei das U von Fuchs zu stark ausgesprochen wird. Kann aber mit einer espeak Wörterbuch-Datei leicht gelöst werden.

Infos zur Wörterbuch-Datei findet sich hier.

Edit: Ich habe die Aussprache im espeak Wörterbuch nun zu Fuchs 'f%Ukss geändert. Immer noch nicht perfekt, aber deutlich besser (siehe OUTPUT.zip).

1manfactory commented 3 months ago

Danke. Da muss ich mich noch reinfukssen :-)

thorstenMueller commented 3 months ago

Guude! @1manfactory benutzt du Windows und hast generell Probleme mit der Betonung von deutschen Sonderzeichen?

Ich hatte manchmal den Eindruck, dass der Wechsel von espeak-ng zum reinen espeak unter Windows geholfen hat - habe das aber noch nicht detaillierter analysiert.

1manfactory commented 3 months ago

Danke für den Tipp. Momentan bin ich dabei eine Speaking machine mit Symfony zu programmieren. Plan: Text rein, dann mit KI "bereinigen" - also bspw. "sagte er" einfach wegzulassen. Und dann aussprechen lassen. Ich nutze whisper von openAI. Aber leider hat der noch einen derben Ami-Akzent. Manchmal spricht er "Rabe" richtig aus, manchmal falsch. Dann klingt es wie im englischen "Rave", nur mit B Am liebsten würde ich ja den Text per KI komplett in Lautschrift übersetzen lassen und diesen dann aussprechen lassen. Dann wäre es vielleicht auch möglich mehr mit den Betonungen zu spielen. Aber andereseits kann Elevenlabs das auch