Klassifikation von Unternehmenssnippets

peterbehrens commented 3 years ago

Unternehmenssnippets (Beschreibungstexte bei Bing oder Google Suchen) sollen mithilfe von Text-Klassifizierungen vordefinierten Kategorien zugewiesen werden.

Evaluation von zwei verschiedenen Vorhersagealgorithmen (Naive Bayes & KNN)
Welcher liefert die bessere Vorhersage?

Teammitglieder: Peter, Stephan & Tom Link zum Repository: https://github.com/peterbehrens/NLP-project.git

PS.: Sorry, dass das Projekt jetzt erst öffentlich erstellt wurde, lag bisher nur auf meinem privaten git

cbiehl commented 3 years ago

Zu der Problematik mehrerer Sprachen: Es gibt mehrsprachige Word Embeddings, z.B. hier: https://github.com/facebookresearch/MUSE

Es gibt auch mehrsprachige BERT Modelle: https://huggingface.co/bert-base-multilingual-cased (alles nicht zwingend notwendig, nur als Möglichkeit!)

Das Einfachste ist möglicherweise die Sprache zu erkennen (a.k.a. Language Detection) und dann die unterschiedlichen Sprachen unterschiedlich zu behandeln (verschiedene Embeddings / Preprocessing / separates Modell / ...). Spracherkennung z.B. mit: https://pypi.org/project/langdetect/#description

cbiehl commented 3 years ago

Für weitere Trainingsdaten kann man über die Paraphrasierung existierender Trainingsdaten nachdenken oder weitere Datenquellen erschließen.

cbiehl / wwi18dsb-nlp

Klassifikation von Unternehmenssnippets #4