CentreForDigitalHumanities / tscan

T-scan: an analysis tool for dutch texts to assess the complexity of the text, based on original work by Rogier Kraf
GNU Affero General Public License v3.0
18 stars 6 forks source link

[LINT] nieuwe tekstkenmerken #45

Closed oktaal closed 2 years ago

oktaal commented 3 years ago

Op basis van eigen evaluaties wordt overwogen om drie nieuwe tekstkenmerken op te nemen en wordt een lijst van gangbare woorden opgesteld die bij frequentie-analyses moeten worden overgeslagen (gebeurt al). Dit om valse alarmen rond vermeend moeilijke woorden te voorkomen.

Gaat om deze tekstkenmerken:

Verder ook een lemma-variant van het kenmerk wrd_freq_log_zn_corr(lem_freq_log_zn_corr dus). https://github.com/UUDigitalHumanitieslab/tscan/issues/52