student project to present lexical knowledge from XML-transcriptions of dictionaries in an interactive web interface for easier lookup and explorative search
Heuristik für Segmentierung in Wortformen und Filterung von Nicht-Worten derzeit zu strikt und unflexibel
-> neben \s+ müssen weitere Zeichen als Trenner zwischen Token zugelassen werden, bspw. , . ; -, aber auch weniger vorhersehbare spezielle UniCode-Zeichen wie 'en-dash' (–, bzw. –)
-> es müssen auch alphabetische Buchstaben für Griechisch und lat. Buchstaben mit klassichen Akzenten zugelassen werden
-> neben
\s+
müssen weitere Zeichen als Trenner zwischen Token zugelassen werden, bspw., . ; -
, aber auch weniger vorhersehbare spezielle UniCode-Zeichen wie 'en-dash' (–, bzw.–
) -> es müssen auch alphabetische Buchstaben für Griechisch und lat. Buchstaben mit klassichen Akzenten zugelassen werden