Einarbeitung in Datensatz + Entwicklung Ideen bzgl. Problemstellung und geeigneter Methoden

sonrisa0 commented 1 month ago

Entwicklung von Ideen bzgl. Problemstellung und geeigneter Methoden

netGed commented 1 month ago

Die Problemstellung gehört grundsätzlich zur Sentiment Analysis. Nach entsprechender Vorverarbeitung (Stop words, Stemming, Tokenization usw.) der Daten sind die bekannten ML-Modelle sowie RNN mit LSTM-Layern anwendbar.

Auf dem develop-Branch habe ich schon mal ein paar Ansätze dafür erstellt. Grundsätzlich sind die Daten für "Hate-Speech Erkennung" vollkommen ungeeignet, da die Label nur grob klassifizieren und der Inhalt der Tweets auch nicht nach Hate-Speech aussieht. Eine binäre Klassifikation (negativ <-> alles andere) oder multi-class (positiv,negativ,neutral,irrelevant) ist aber problemlos möglich.

svole1 commented 1 month ago

Ihr seid ja schon richtig fleißig. Ein paar Gedanken von mir:

Vermutlich 0 = keine Hatespeech und 1 Hatespeech, aber sehr undurchsichtig
z.T. Antworten auf andere Tweets dabei wo der Zusammenhang fehlt
Duplikate im vierstelligen Bericht
Sehe keine leeren Tweets im Train Datensatz
Typos wie bihday vorhanden
Bei der Analyse Hashtags ausblenden. Wörter wie "thankful" und "#thankful" müssen gleich behandelt werden
Tweets neuer als Ende 2017 (>140 Zeichen)
Als geeignete klassische ML -Methoden aus dem Kurs würden sich überwachte Methoden wie SVM oder Bayes anbieten

Fragen

Definition von Hate Speech? Folgen wir der Definition aus dem Datensatz? (" we say a tweet contains hate speech if it has a racist or sexist sentiment associated with it."
Wie bringen wir Data Science Life Cycle ein (siehe Aufgabenstellung? Stellt jeder selbst sicher, dass er/sie danach arbeitet? Halten wir das in der Dokumentation fest?

Und für den Termin am Donnerstag eine Listen der Aufgaben die wir mMn verteilen können (noch nicht alle müssen am Donnerstag verteilt werden), gerne ergänzen. Und eine Liste der next steps (auch gerne ergänzen).

Aufgaben

Weitere Datensätze crawlen (vielleicht andere Plattformen z.B. Truth Social)?
Datensatz auf- und vorbereiten (ist ja schon sehr weit voran geschritten)
Problemstellung formulieren
3 klassische Methoden identifizieren & anwenden
mind. 1 DL Ansatz identifizieren & anwenden
- Literaturrecherche
- Diskussion
Punkt 5: Interpretation und Diskussion der Ergebnisse
Neue Idee für einen passenden Ansatz konzipieren, implementieren und anwenden
Zwischenpräsentation (genau 1)
Abschlusspräsenatation (max 2)
Abschlussbericht: Schreibt jeder seine Arbeit unter 2: Aufgabenverteilung und 5: Ansätze? Wer schreibt 1: Einleitung, 3: Teaminterene Orga und 4: Datensätze und Problemstellung?

Next Steps:

Problemstellung definiert
Datensatz fertig vorverarbeitet
Methoden (klassisch) ausgewählt
Methode DL ausgewählt

Imran1221 commented 1 month ago

Knowledge.docx Hier mal eine gute Zusammenfassung

netGed / WebScience24

Einarbeitung in Datensatz + Entwicklung Ideen bzgl. Problemstellung und geeigneter Methoden #1