CentreForDigitalHumanities / tscan

T-scan: an analysis tool for dutch texts to assess the complexity of the text, based on original work by Rogier Kraf
GNU Affero General Public License v3.0
18 stars 6 forks source link

[LINT] woordfrequenties op lemma-niveau #49

Closed oktaal closed 2 years ago

oktaal commented 3 years ago

De woordfrequenties moeten op lemmaniveau worden aangeboden.

Het markeren van infrequente woorden bij Bekijk uw tekst moet gaan gebeuren op basis van gecorrigeerde frequenties (lemmafrequenties, niet wrd_freq_zn_log, maar wrd_freq_zn_log_corr). Zo worden valse alarmen voorkomen.

Op dit moment ontbreekt er nog lemma-variant van een kenmerk wrd_freq_log_zn_corr(lem_freq_log_zn_corr dus).

oktaal commented 3 years ago

@pandermaat https://github.com/UUDigitalHumanitieslab/IS_UU_READABILITY-TOOL/blob/f4048fdba40f016935e6ae288908c9509adf4f0b/client/views/Step4.vue#L194-L205 het lijkt erop dat dit al zo is. Zou het kunnen dat er een andere waarde nodig is dan wrd_freq_zn_log_corr?

lukavdplas commented 2 years ago

Dus dit gaat over het toevoegen van lem_freq_log_zn_corr aan tscan? Of moet het ook in lint gebruikt worden?

pandermaat commented 2 years ago

Dag collega's,

Voor LiNT zie ik graag wrd_freq_log_zn_corr, met alles op woordniveau gedaan (dus ook de correcties, en daarbinnen de correcties op basiswoorden bij 'onbekende woorden' die worden ontleend aan de gekozen compound splitter. Voor T-Scan wil ik graag daarnaast een lem_freq_log_zn_corr, met alles op lemmaniveau gedaan. Dan ga ik die laatste nog eens testen op predictievermogen.

OK?

Groet van Henk


Van: Luka van der Plas @.> Verzonden: dinsdag 1 maart 2022 10:11 Aan: UUDigitalHumanitieslab/tscan @.> CC: Pander Maat, H.L.W. (Henk) @.>; Mention @.> Onderwerp: Re: [UUDigitalHumanitieslab/tscan] [LINT] woordfrequenties op lemma-niveau (#44)

Dus dit gaat over het toevoegen van lem_freq_log_zn_corr aan tscan? Of moet het ook in lint gebruikt worden?

— Reply to this email directly, view it on GitHubhttps://github.com/UUDigitalHumanitieslab/tscan/issues/44#issuecomment-1055190951, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AEXPYF4KVFNBMEWJGXP7ECLU5XNMTANCNFSM46OPDFNA. Triage notifications on the go with GitHub Mobile for iOShttps://apps.apple.com/app/apple-store/id1477376905?ct=notification-email&mt=8&pt=524675 or Androidhttps://play.google.com/store/apps/details?id=com.github.android&referrer=utm_campaign%3Dnotification-email%26utm_medium%3Demail%26utm_source%3Dgithub. You are receiving this because you were mentioned.Message ID: @.***>

oktaal commented 2 years ago

Zien we vanaf omdat dan de samenstellingsplitter twee keer moeten worden aangeroepen (een keer voor lemma en een keer voor word)