CentreForDigitalHumanities / tscan

T-scan: an analysis tool for dutch texts to assess the complexity of the text, based on original work by Rogier Kraf
GNU Affero General Public License v3.0
18 stars 6 forks source link

Tscan and LiNT give different scores #57

Closed lukavdplas closed 2 years ago

lukavdplas commented 2 years ago

Tscan's output of LiNT_score2 should match the complexity score in LiNT but it does not.

For instance, this text:

Als student kun je in je onderwijs te maken krijgen met verschillende regelingen. Ook heb je tijdens je studie bepaalde voorzieningen nodig en daar zijn ook regelingen voor. Al deze regelingen vind je in de Onderwijs- en examenregeling (OER) van je faculteit en/of opleiding. Voor deze OER 'en wordt jaarlijks op centraal niveau een model-tekst gemaakt: een algemene tekst die faculteiten kunnen aanvullen met bijzonderheden. Het model is een suggestie aan de faculteiten . Zij kunnen ervan afwijken. Dit geldt alleen niet voor de rode bepalingen in het model. Faculteiten moeten deze rode bepalingen verplicht overnemen. Ze mogen er alleen van afwijken als het CvB daar aparte schriftelijke toestemming voor geeft. Ieder jaar wordt deze OER-modeltekst op centraal niveau herzien. De zeggenschap over de rode teksten ligt dan ook niet bij de faculteitsraad, maar bij de universiteitsraad: die heeft de zogenaamde medezeggenschapsrechten hierover. In thema 1 lees je hier meer over. Na bespreking in de universiteitsraad kan het CvB de model-OER definitief vaststellen en naar de faculteiten sturen.

Gets a score of 58.022 in tscan and 53 in the latest version of LiNT.

The correct formula is

100 - ( - 9.925 + (18.264 * wrd_freq_log_zn_corr) + (-3.766 * Inhwrd_dz_zonder_abw) + (13.796 * Conc_nw_ruim_p) + (-1.126 * al_max) )

which seems to match the source code in tscan and lint.

lukavdplas commented 2 years ago

Of course, LiNT could just retrieve the complexity score and level from the tscan output instead of calculating it.

oktaal commented 2 years ago

Fixed by https://github.com/UUDigitalHumanitieslab/tscan/pull/55 and https://github.com/UUDigitalHumanitieslab/lint/pull/33