spraakbanken / sparv-pipeline

Språkbanken's text analysis tool
https://spraakbanken.gu.se/sparv
MIT License
25 stars 6 forks source link

New readability measures #197

Open anne17 opened 2 months ago

anne17 commented 2 months ago

Önskemål från Ylva (2024-02-02) att implementera följande läsbarhetsmått i Sparv:

  • Ordmedellängd (i tecken per ord alltså)
  • Substantiv/verb-kvot (just nu spottar den ur sig den fulla nominalkvoten, men vi skulle gärna också ha det som kallas substantiv-verb-kvot eller enkel nominalkvot)
  • Meningsmedellängd

En annan sak som jag gärna skulle ha, men som kanske har lite lägre allmänintresse, är grafisk fraslängd, dvs. hur många ord det går mellan två skiljetecken. (I föregående mening är den första grafiska frasen 8 ord, nästa 7, nästa 3 och sista 9.) Det är nämligen intressant för att undersöka rytm i prosa (bifogar en artikel om detta som ni nog inte är intresserade av, men ändå). Det borde också vara väldigt lätt för Sparv att spotta ur sig:

  • Grafisk fraslängd