wlitke / translator

Translator application
2 stars 0 forks source link

Test von Speech2Text Service "Speechmatics" #24

Open wlitke opened 1 year ago

wlitke commented 1 year ago

Erstelle basierend auf der momentanen Implementierung eine Variante, bei der der Speechmatics Service für die Spracherkennung verwendet wird: https://www.speechmatics.com/

Als Text-to-Speech werden weiterhin die Microsoft Cognitive Services verwendet.

eppstephan commented 7 months ago

Der Speechmatics Service wird für die Spracherkennung in Anlehnung an https://github.com/speechmatics/speechmatics-dotnet/tree/main genutzt, siehe https://github.com/wlitke/translator/tree/Speechmatics-DeepL-Azure. Im Vergleich zu dem Speech-to-Text Service von Azure oder Google liefert Speechmatics bessere Ergebnisse. Azure war teilweise zu überempfindlich, siehe https://github.com/wlitke/translator/issues/20, und bei Google ist isFinal Response zu langsam, siehe https://github.com/googleapis/nodejs-speech/issues/163.

eppstephan commented 6 months ago

Hier ist ein interessanter Artikel zum Vergleich verschiedener Speech-to-Text Service Provider: https://www.speechmatics.com/company/articles-and-news/introducing-ursa-the-worlds-most-accurate-speech-to-text. Verglichen wurden Speechmatics, Microsoft, Whisper (OpenAI), Amazon und Google mit interessanten Ergebnissen. Bei den durchgeführten Tests hat die geringste Word Error Rate Speechmatics mit 11,96%. image

eppstephan commented 6 months ago

Speechmatics hat neue Ergebnisse veröffentlicht: http://go2.speechmatics.com/Mjg4LVdJRC00NDIAAAGQK6bgLeSh4HSKpZt2PzzlrNTZ5lr_KExxTYqLcDiVyAnG3iyHZALjLlxsXTQUqTVH9q8mBTc=. Es folgt ein Teil der Ergebnisse. Im ersten Diagramm sieht man die Ergebnisse unterschieden nach Geschlecht und Alter. image Im zweiten Diagramm sieht man die Ergebnisse unterschieden nach sozialer Herkunft und Bildung. image