[Preprocessing] Daten Bereinigung

ChrizZz110 / bdp-string-sim

The String Similarity on Flink Project from the Big Data Praktikum @ UNI Leipzig, SS2016

GNU General Public License v3.0

1 stars 1 forks source link

[Preprocessing] Daten Bereinigung #4

Closed ChrizZz110 closed 8 years ago

ChrizZz110 commented 8 years ago

Nach dem Label Filter müssen die gefilterten Tupel bereinigt werden:

alle Zeichen in Kleinbuchstaben umwandeln
Leerzeichen und Sonderzeichen (Punkte, Komma, Bindestriche) eliminieren
alle Klammern mitsamt deren Inhalt gelöscht.

Lunev1 commented 8 years ago

done

ChrizZz110 commented 8 years ago

Anmerkung aus dem Gespräch mit Herrn Nentwig:

DataCleaner so anpassen, dass entweder Klammern mit Inhalt und Text nach dem Komma entfernt wird ODER Klammern bestehen bleiben und Text nach dem Komma bleibt bestehen

@Lunev1 TODO für dich: Ich denke ein guter Weg wäre für deine Klasse "DataCleaner" einen Konstruktor anzulegen, den man ein boolean Wert übergeben kann: 0 = Klammern und Komma drin 1 = Klammern und Komma raus. Den Wert speicherst du in einer privaten Klassenvariable. In der Map Funktion selbst fragst du diese dann ab und entscheidest, was du machst.

ChrizZz110 commented 8 years ago

Ich hab deinen DataCleaner in den createCompareCsv Prozess integriert. Das Ergebnis sieht sehr gut aus!
Spontan ist mir noch das Zeichen ‘ ins Auge gefallen, welches sich bspw. in der concept_attributes.csv Zeile 45588 befindet: 7350;label;Al ‘Amārah;string

Vielleicht kannst du das auch noch mit raus werfen.

Lunev1 commented 8 years ago

Der DataCleaner hat nun zwei Modi die mit dem Konstruktor übergeben werden können: true - Klammern und Kommas mit Innhalt bzw. folgendem Inhalt entfernen false - Klammern und Komma mit Inhalt behalten (default)

Zu beachten: auch im false-Mode werden standardmäßig Kommas entfernt.

ChrizZz110 commented 8 years ago

@Lunev1 : Bitte im Unit-Test den Modus mit false noch integrieren.