bugwelle / cl-neural-networks

Introduction to Neural Networks and Sequence-To-Sequence Learning at the Heidelberg University
0 stars 0 forks source link

JoeyNMT Beispiel Projekt testen #5

Closed bugwelle closed 3 years ago

bugwelle commented 3 years ago
git clone git@github.com:joeynmt/joeynmt.git
cd joeynmt
pip3 install --user .

python3 scripts/generate_reverse_task.py

mkdir test/data/reverse
mv train* test/data/reverse/
mv test.* test/data/reverse/
mv dev* test/data/reverse/

python3 -m joeynmt train configs/reverse.yaml
stefanDeveloper commented 3 years ago

Beispiel fuer JoeyNMT kann hier entnommen werden, oder auf dem eigenen Colab: https://github.com/bugwelle/cl-neural-networks/blob/main/colab/joeynmt.ipynb

bugwelle commented 3 years ago

Ok. Also ich hab noch weiter mit JoeyNMT rumgespielt und es scheint, dass es wirklich nur Konfigurations-basiert ist. Ich kann keine eigenen Klassen hinzufügen, etc.

z.B. ist in training.py die normalization hard-gecoded auf entweder batch, tokens oder none.

Mein Vorschlag deswegen: JoeyNMT nicht als sub-module, sondern kopieren und anpassen.

@RobinFleige , @stefanDeveloper Oder seht ihr einen anderen weg?

JoeyNMT schreibt z.B. hier https://joeynmt.readthedocs.io/en/latest/overview.html#data-loading , dass Torchtext verwendet wird. Da wir mit Audio arbeiten, müssen wir das auf jeden Fall anpassen.

stefanDeveloper commented 3 years ago

@bugwelle Von meiner Seite aus sehe ich auch keinen anderen Weg JoeyNMT anzupassen. Daher passt der pull request #8 für mich.

stefanDeveloper commented 3 years ago

JoeyNMT schreibt z.B. hier https://joeynmt.readthedocs.io/en/latest/overview.html#data-loading , dass Torchtext verwendet wird. Da wir mit Audio arbeiten, müssen wir das auf jeden Fall anpassen.

In joeynmt/data.py werden die Daten geladen. Ich denke diese Datei muss angepasst werden, dass speech anstatt text Datei geladen werden. Wird korrekt #11 hinzugefuegt