Closed sonrisa0 closed 1 week ago
Ich glaube das macht nicht so viel Sinn wenn jeder die Vorverarbeitung macht... Chris Notebook (V2) ist schon sehr fortgeschritten und würde an dieser ansetzen... Die EDA (Explorative Datenanalyse sollte jeder für sich machen), weil da evtl. verschiedene Erkentnisse dabei rauskommt...
Hier mal mein Review zum Notebook (V2) von @netGed aka Chris: hashtag sind zusammengesetzte Wörter und können dann schwer analysiert werden --> maybe diese in einzelnen wörter zerlegen? smileys wurden in die Schreibweise formatiert, aber sind auch zusammengesetzte Wörter somit schwer zu analysieren Wie sinnvoll ist es die frequent Wörter zu entfernen? [RHETORISCHE FRAGE] zwei mal im Skript wird duplikaten entfernt (am Anfang und am Ende)? Ist es Zufall das nach der Vorverarbeitung erneut Duplikate entstehen? Löschen von "@user"... ist für die Analyse nutzlos Von Nasibas ipynb Punkt 2.1.7 (Überprüfung von falsch geschriebenen Wörtern im Text) könnte sinnvoll sein, maybe Bibliotheken die Rechtsschreibung etc. korrigieren
Also ich würde tatsächlich doch wollen, dass wir es schon gemeinsam haben. Das kann aber jeder für sich selbst entscheiden, ob jemand es möchte. Bisher habe Data Cleaning gemacht und werde bis morgen versuchen weitere Vorbereitungschritte durchmachen. Und ich wäre dafür, dass wir abstimmen, was übernommen wird, was nicht
Erstellen eigener Dev-Ordner und Implementierung eigener Vorverarbeitung Datensatz "Abgabe" bis 26.10.