Open peterbehrens opened 3 years ago
Zu der Problematik mehrerer Sprachen: Es gibt mehrsprachige Word Embeddings, z.B. hier: https://github.com/facebookresearch/MUSE
Es gibt auch mehrsprachige BERT Modelle: https://huggingface.co/bert-base-multilingual-cased (alles nicht zwingend notwendig, nur als Möglichkeit!)
Das Einfachste ist möglicherweise die Sprache zu erkennen (a.k.a. Language Detection) und dann die unterschiedlichen Sprachen unterschiedlich zu behandeln (verschiedene Embeddings / Preprocessing / separates Modell / ...). Spracherkennung z.B. mit: https://pypi.org/project/langdetect/#description
Für weitere Trainingsdaten kann man über die Paraphrasierung existierender Trainingsdaten nachdenken oder weitere Datenquellen erschließen.
Unternehmenssnippets (Beschreibungstexte bei Bing oder Google Suchen) sollen mithilfe von Text-Klassifizierungen vordefinierten Kategorien zugewiesen werden.
Teammitglieder: Peter, Stephan & Tom Link zum Repository: https://github.com/peterbehrens/NLP-project.git
PS.: Sorry, dass das Projekt jetzt erst öffentlich erstellt wurde, lag bisher nur auf meinem privaten git