jlawyerorg / j-lawyer-org

Main project containing all submodules for building an entire j-lawyer.org system. Submit issues (bugs, enhancement requests) here.
https://www.j-lawyer.org
GNU Affero General Public License v3.0
50 stars 23 forks source link

[FEATURE] Integration einer Spracherkennung mit OpenAI's Whisper #1963

Open LazyGuy21No opened 1 year ago

LazyGuy21No commented 1 year ago

Whisper von OpenAI ist eine sehr gute Spracherkennung.

Neben der Anbindung (#1962) wäre eine Integration m.E. wünschenswert. In einer Akte kann ein neues Diktat gestartet (oder ein gespeichertes Diktat hochgeladen) werden. Der Client nimmt dann entweder das Diktat auf oder verarbeitet eine Audiodatei (möglichst auf dem Server).

Auch denkbar wäre m.E. ein "Diktierfenster", in dem eine Live-Erkennung angezeigt wird. Ist der Text fertig diktiert, wählt man eine Vorlage aus, in die der Text eingefügt werden soll. Der Erkannte Text wandert dann in einen dort hinterlegten Platzhalter {{WHISPER}} im Textkörper.

Nachteile: Eine Live-Erkennung nutzt die Rechenleistung des Clients. Auf Windows scheint der Betrieb von Whisper etwas komplizierter einzurichten zu sein.

Bei der Stapelverarbeitung könnte man analog die Sprachdatei auswählen (bitte mit Vorschau zum Kontrollieren) und die Ziel-Textvorlage angeben. Der Server arbeitet dann alles nacheinander ab und sagt bescheid, wenn das Dokument fertig ist (ähnlich Faxfunktion).

Siehe auch: #1961

iradraconis commented 1 year ago

sehr guter Vorschlag!