[ ] Datenqualität im Eigenkapitel beschreiben, Theorie ins Grundlagenkapitel
[ ] Quellen für Metaalgorithmen, BOW (insb. Bewertungsfunktionen und N-Gramme) Rauschen und Ausreißer
[ ] Abschnitt "Betrachtung einiger Beispiele" – Die Links ragen über den Textrand hinaus
[ ] TDM-Matrix: Schräge Punkte
[ ] Testdatensatz C in Merkmalsvektor einfügen
[ ] Kapitel 2.6.3 zu kurz! (Fehlende Daten) sowie Skip-Gram-Model (Zusammenlegen oder mehr schreiben)
[ ] Abbildung 3.3 sehr niedrig auflösend
Grundsätzliches – hier habe ich in Großteilen die Elemente meiner letzten Mail anzumerken:
[ ] Ihr fallt gleich mit der Tür ins Haus, beschreibt doch in Kapitel 2 []auf ca. 5 Seiten den Stand der Technik, welche Gruppen und Arbeiten es gibt, wo die Probleme bestehen und warum Eure Arbeit wichtig ist.
[ ] Eure theoretische Herleitung wäre anhand eines Benchmark-Datensatzes o.ä. wesentlich einfacher zu erklären. Ihr greift oft auf nicht defnierte Begriffe, z.B. Merkmale zu.
[ ] Mir fehlen grundsätzlich Verweise auf andere Arbeiten. Alle Abschnitte klingen so, als wärt Ihr die einzigen, die sich mit der entsprechenden Problematik beschäftigen. Gebt dem Leser die Möglichkeit, sich an allen Stellen selbst fortzubilden.
Konkretes:
[x] S.2 + 3 : Ich würde die Anzahl an „ „-Begriffen minimieren.
[ ] S.4:
: Mehrklassenklassifikation nicht verstanden: Gleiche Merkmale können in div. Ausgabeklassen unterteilt werden, z.B. Hund und Säugetier!!!
[x] S.5 : Im Bild „Klassifikation“ erwähnen
[x] S.6 : Die zitierten Abschnitte sollten in der richtigen Reihenfolge genannt werden.
[ ] S.8 : Kap. 2.3.3, Stand der Technik sollte mindestens ein paar Seiten umfassen und darstellen, was nicht gelöst ist bzw. warum Ihr dieses Problem angeht.
[x] S.9 : Kap. 2.4.4, etwas auf den Begriff Dilemma eingehen.
[x] Eure Unterkapitel sind grundsätzlich sehr kurz, ich würde mir überlegen mehr zu schreiben, oder mehrere Kapitel zusammenzufassen.
[x] S.10 : weißt weist
[x] Rauschen ist meist eine Störung, die Merkmale im möglichen Bereich liefert und anhand von vielen (!) Daten gesehene werden kann, hier habt Ihr eher einen Ausreißer.
[x] S.11 : Managergehalt ist kein Ausreißer, nur wenn Ihr Manager eigentlich nicht messen wolltet.
[x] S.12 : Ich würde Kap. 2.7 mit einer Übersicht beginnen, was nun alles kommt.
[x] S.17 : Warum steht Rauschen in „“? Ist das Rauschen? Wenn ja, warum?
[x] S.19 : Tabelle im Fließtext.
[x] Wann betont Ihr durch fett, wann durch kursiv? Bitte einheitlich.
[x] S.20 : Kapitel 2.9 beginnt ohne Unterkapitel.
[x] Bitte 2.9.1 schreiben.
[x] S.21 : Überschrift „Chi-Quadrat“ nicht aussagekräfig.
[x] Tabelle im Fließtext.
[x] Wenn Ihr in Kapitel 2.9 verschiedene Methoden beschreibt, solltet Ihr sie auch in Eurem Kontext vergleichen, denn sonst ist das ja reines Lehrbuchwissen, das in den Anhang gehört. (SKALIERUNG)
[x] S.23 : Das Gleiche gilt in Kap. 2.10 – setzt es in Euren Kontext. (MERKMALSSELEKTION)
[x] S.25 : Anhand dieser Erklärung versteht niemand, wie Bag-of-Words funktioniert. Verwendet ein Beispiel zur Einführung.
[x] Warum wird das gemacht, was ist das Ziel, warum macht man es nicht anders?
[x] S.27 : Tabelle 2.5 – schwer nachzuvollziehen, wo die Wörter herkommen. Nochmal erwähnen.
[x] S.28ff : Klassifizierungs-Verfahren nicht nur beschreiben, sondern in Euren Kontext setzen.
[ ] S.32 : Dimensionsreduktion ist eigentlich bei Euch eine Aggregation, weil Ihr alle Merkmale behalten wollt – tendenziell ist eine Merkmalsauswahl ja auch eine Reduktion…
[x] S.36 : Wie findet Ihr denn nun optimale Hyperparameter – Bewertung von Crossvaldierungen?
[ ] S.37 : Die Konfusionsmatrix ist keine Methode sondern eine Darstellung des Ergebnisses. Sie kann ja für CV, Lerndaten, Testdaten etc. dargestellt werden.
[x] U.U. noch Bootstrap erwähnen.
[x] S.44 : Tabelle sehr schön – das sieht nach Konzeption aus.
[x] S.51 : Ebenso. Achtung in der Tabelle steht Crawler, der Abschnitt hieß Crawling.
[x] S.54 : Bei allen Merkmalen erwähnen, warum Ihr sie einführt bzw. für wichtig haltet.
[ ] Ich hätte dann eigentlich auch ganz gerne eine Bewertung von MANOVA o.ä., welche Merkmale tatsächlich für welche Probleme gut geeignet / nicht geeignet sind.
[ ] S.59 : Bitte das Ergebniskapitel möglichst schnell schreiben mit klar verständlichen und ausgewerteten Datensätzen, Klassifikationsfehlern, Empfehlungen etc. Hier kommt noch einiges an Arbeit auf Euch zu.
Eigene Anmerkungen
Grundsätzliches – hier habe ich in Großteilen die Elemente meiner letzten Mail anzumerken:
Konkretes: