haukex / de-en-dict

German-English Dictionary
https://dict.zero-g.net/
GNU General Public License v2.0
11 stars 1 forks source link

Pronunciation, German-Spanish, and -Portuguese dictionaries? #6

Open theuserbl opened 3 months ago

theuserbl commented 3 months ago

Ja, ich schreibe in Deutsch. Schließlich geht es um ein Deutsch-Englisch Lexikon, das auf deutschen Servern war. Daher bin ich mal so frei. :-)

Auf der alten dict.tu-chemnitz.de Seite stand https://web.archive.org/web/20230601010209/https://dict.tu-chemnitz.de/

The German-Spanish Dictionary now contains all vocabulary from MYJMK.COM and serves over 320,000 translations.

Auf http://myjmk.com/ steht

www.myjmk.com wurde am 25.05.2018 abgeschaltet. Der Wortschatz von MYJMK steht über das Wörterbuch beolingus von der TU-Chemnitz weiterhin zur Verfügung. https://dict.tu-chemnitz.de/de-es/

Naja, und die dict.tu-chemnitz.de Seite wurde halt nun auch abgeschaltet. Und dort gibt es auch keine de-es.txt

Wollte nur darauf hingewiesen haben, dass dort evtl. gerade eine Wörtberbuchdatei verloren geht. Evtl wäre es schön, diese zu beschaffen (sofern sie nicht gänzlich im Nirvana gelandet ist) und danach zusätzlich ein Online Deutsch-Spanisch Wörterbuch bereitzustellen.

Und die aktuelle de-en.txt wäre glaube ich auch in https://github.com/haukex/de-en-dict gut aufgehoben. Wer weiß wann die TU-Chemnitz auch die bei sich gespeicherten Dateien löscht.

theuserbl commented 3 months ago

Habe nun gesehen, dass es auch eine Deutsch-Portugiesisch-Seite von der TU Chemnitz gab https://web.archive.org/web/20230306071229/https://dict.tu-chemnitz.de/de-pt/

Auch ist dort folgender Absatz interessant:

For all languages: Search in over one million example sentences from the DGT Multilingual Translation Memory of the European Union.

Die zip-Dateien unter https://joint-research-centre.ec.europa.eu/language-technology-resources/dgt-translation-memory_en enthalten wirklich Wörterbücher, die in einer XML-Datei, die hier beschrieben ist https://www.gala-global.org/tmx-14b veröffentlicht sind.

Die scheinen dort aber nicht einzelne Wörter zu haben, sondern Textabschnitte, die für deren Gesetzestexte wichtig sind. Dafür sind diese jeweils in mehreren Sprachen.

haukex commented 3 months ago

Vielen Dank für den Vorschlag! Ich habe es mir mal kurz angesehen und ich weiß leider auch nicht was aus der Deutsch-Spanischen Übersetzungsliste geworden ist. Die Schwierigkeit an der Deutsch-Portugiesischen Wortliste ist, dass sie anscheinend eigene Lizenzbedingungen hat, in einem ganz anderen Format vorliegt, und anscheinend auch noch viel größer ist. Es wäre also leider nicht trivial diese App entsprechend zu erweitern.

Und die aktuelle de-en.txt wäre glaube ich auch in https://github.com/haukex/de-en-dict gut aufgehoben. Wer weiß wann die TU-Chemnitz auch die bei sich gespeicherten Dateien löscht.

Die Wortliste liegt bereits auf einem Mirror von mir zur Verfügung, auf den ich problemlos wechseln kann, sollte das jemals passieren (siehe Code). Aber da Frank Richter die Wortliste weiter führen wird, macht es mehr Sinn, sie direkt vom TU Chemnitz Server abzurufen. Ich könnte mir mal bei Gelegenheit überlegen, eine eigene Repository für die Wortliste aufzumachen.

frituc commented 3 months ago

Die deutsch-spanische Übersetzungsliste wurde von myjmk.com unter gewissen Bedingungen zur Verfügung gestellt (Lizenzvertrag). Hier kann ich gern fragen, ob Herr Kunberger das freigibt. Deutsch-Portugiesisch war auch aus dritter Quelle, auch nicht frei verfügbar.

haukex commented 2 months ago

As I discussed above, and as confirmed by @frituc, getting access to those dictionaries, as well implementing an app to search in them, is unfortunately outside of the scope of what I can do in this project at the moment.

For now, I'll keep this issue open for visibility and in case anyone wants to give more input.

haukex commented 2 months ago

I'm merging issue #19 by @use-fortutor into this one, so discussion about "features that Beolingus had that this app doesn't" can all happen in one place for now.

Unfortunately, what I wrote above probably applies to the pronunciation as well, including that there would need to be hosting for what I assume is a lot of small audio files...

haukex commented 4 weeks ago

Just a small update: In d6a99bab889d76b180747f420c9e3df745c44d58 I added a "speech synthesis" tool to the selection popup. Of course that is highly dependent on the quality of the TTS on the user's system, but at least modern smartphones have pretty good synthesis nowadays.