We may want to have an annotation layer that specifies for each normalized token whether it occurs in a given lexicon or morphology, e.g. DWDSmor.
Thoughts (in German):
Wenn ich prüfen möchte, ob meine Wörter in einem Lexikon bzw. einer Morphologie wie DWDSmor vorhanden sind, reicht ein Check pro Type. Das heißt, wir nehmen das gesamte Vokabular des Korpus und prüfen jeden Type einmal gegen das Lexikon und erzeugen daraus ein set lexvoc = { type | is_in_lex(type) }.
Dann gehen wir die normalisierten, tokenisierten Sätze durch und erzeugen eine Annotation: [(token in lexvoc) for token in sent]
We may want to have an annotation layer that specifies for each normalized token whether it occurs in a given lexicon or morphology, e.g. DWDSmor.
Thoughts (in German): Wenn ich prüfen möchte, ob meine Wörter in einem Lexikon bzw. einer Morphologie wie DWDSmor vorhanden sind, reicht ein Check pro Type. Das heißt, wir nehmen das gesamte Vokabular des Korpus und prüfen jeden Type einmal gegen das Lexikon und erzeugen daraus ein set
lexvoc
={ type | is_in_lex(type) }
. Dann gehen wir die normalisierten, tokenisierten Sätze durch und erzeugen eine Annotation:[(token in lexvoc) for token in sent]