Open thl81 opened 3 years ago
Hier ne bedenkenswerte Alternative von Mozilla: https://github.com/mozilla/DeepSpeech Und das wollte ich auch noch anhängen:
Befehle für neuronale Netze in Cortex-M-SoCs Armv8.1-M und Helium ARM hat seine Cortex-M-Architektur mit Befehlen zur Verarbeitung neuronaler Netzwerke erweitert, die auf IoT-Produkte abzielen. Damit sollen sich Geräte realisieren lassen, die ohne Zugriff auf die Cloud oder leistungsstarke Server einige gesprochene Wörter aus eigener Kraft erkennen können. Diese MVEs (M-Profil-Vektor-Erweiterungen) wurden unter dem Label „Helium“ angekündigt und funktionieren analog zu Neon SIMD-Erweiterungen (Single-instruction Multiple-Data) für High-End-Cortex-A-Cores. Helium prozessiert die digitale Signalverarbeitung mit mehr Power als bisherige DSP-Befehle, welche den wesentlichen Unterschied zwischen Cortex-M3 und M4 ausmachen. Laut ARM ist Helium eine „Neon-Technologie mit optimierten SIMD-Fähigkeiten speziell für die M-Profil-Architektur mit neuen Funktionen und Datentypen für neue Anwendungsfälle. Neben den Standard-32-bit-Armv8-M-Befehlen gibt es 128-bit-Vektoren mit fester Länge und verbesserter arithmetischer Unterstützung (Fest- und Fließkomma mit halber und einfacher Präzision und 8-bit-Integer sowie komplexer Mathematik – mit etwa 150 Befehlen). Insgesamt wird von der Armv8.1-M-Befehlsarchitektur (ISA) eine bis zu 5-fache Leistungssteigerung gegenüber der Armv8-M-Architektur erwartet (z. B. bei FFT in int32) und eine bis zu 15-fache Steigerung beim maschinellen Lernen (z. B. bei Matrixmultiplikation in int8). Laut ARM benötigt der erweiterte Befehlssatz nicht mehr Silizium-Fläche als bisher. Neben der Sprachverarbeitung sind Anwendungen in der Schwingungsanalyse und im Sichtbereich vorgesehen. Quelle https://www.elektormagazine.de/news/befehle-fur-neuronale-netze-in-arm-cortex-m-socs?utm_source=Elektor+Deutschland
Vosk Open Source Speech Recognition
Nach dem aus von Snips durch Sonos suche ich eine brauchbare alternative. Wichtig dabei ist für mich, dass es offline funktioniert. Dabei bin ich auf Vosk gestoßen. Es scheint ähnlich wie Snips auf einem Raspi laufen zu können und ist Open Source.
https://alphacephei.com/vosk/ https://github.com/alphacep/vosk-api
Ich habe es derzeit noch nicht geteset. Hat hier jemand schon Erfahrung?