Vorverarbeitung Datensatz

sonrisa0 commented 1 month ago

Erstellen eigener Dev-Ordner und Implementierung eigener Vorverarbeitung Datensatz "Abgabe" bis 26.10.

Imran1221 commented 1 month ago

Ich glaube das macht nicht so viel Sinn wenn jeder die Vorverarbeitung macht... Chris Notebook (V2) ist schon sehr fortgeschritten und würde an dieser ansetzen... Die EDA (Explorative Datenanalyse sollte jeder für sich machen), weil da evtl. verschiedene Erkentnisse dabei rauskommt...

Imran1221 commented 1 month ago

Hier mal mein Review zum Notebook (V2) von @netGed aka Chris: hashtag sind zusammengesetzte Wörter und können dann schwer analysiert werden --> maybe diese in einzelnen wörter zerlegen? smileys wurden in die Schreibweise formatiert, aber sind auch zusammengesetzte Wörter somit schwer zu analysieren Wie sinnvoll ist es die frequent Wörter zu entfernen? [RHETORISCHE FRAGE] zwei mal im Skript wird duplikaten entfernt (am Anfang und am Ende)? Ist es Zufall das nach der Vorverarbeitung erneut Duplikate entstehen? Löschen von "@user"... ist für die Analyse nutzlos Von Nasibas ipynb Punkt 2.1.7 (Überprüfung von falsch geschriebenen Wörtern im Text) könnte sinnvoll sein, maybe Bibliotheken die Rechtsschreibung etc. korrigieren

nasibatuychieva commented 1 month ago

Also ich würde tatsächlich doch wollen, dass wir es schon gemeinsam haben. Das kann aber jeder für sich selbst entscheiden, ob jemand es möchte. Bisher habe Data Cleaning gemacht und werde bis morgen versuchen weitere Vorbereitungschritte durchmachen. Und ich wäre dafür, dass wir abstimmen, was übernommen wird, was nicht

Imran1221 commented 1 month ago

{404C60BC-7200-40F2-B9A8-19102DF44F91}

Imran1221 commented 1 month ago

{071655E4-DEF1-4F33-AE5E-7C20C59CFDD2}

netGed / WebScience24

Vorverarbeitung Datensatz #3