Open oktaal opened 3 years ago
Ik heb de kenmerken rond formaliteit nu in de T-Scanhandleiding gezet, versie 38; die gaat ook hierbij. Daarbij heb ik erop gerekend dat de formaliteitskenmerken volgen op de intensiveerders en vooraf gaan aan de probabiliteitskenmerken. Ze komen dus net voor Log_prob_fwd.
Ik nog een nieuwe vraag: mag er aan het eind van de woordkenmerken een kenmerk formeel bijkomen, waarin formele woorden (van welk type dan ook) een 1 krijgen en de rest een 0?
Bouwt voort op oktaal/tscan-issues#11:
Tekstkenmerken voor formele woorden
Door lemma’s van tekstwoorden te matchen met de lijst
formele_woorden.xlsx
, worden de volgende dichtheden berekend (dichtheid = aantal voorkomens per 1000 woorden).Die lijst bestaat uit:
Het matchen gebeurt alleen o.b.v. lemma (hoofdlemma bij een samenstelling).