knaw-huc / un-t-ann-gle

Apache License 2.0
0 stars 0 forks source link

globalise: verbeter reading order voor paragraph textregions #10

Closed brambg closed 2 months ago

brambg commented 5 months ago

De reading order door Loghi bepaald voor de pagexml voldoet niet. Verzoek vanuit globalise: verbeter de reading order door rekening te houden met de bounding boxes van de paragraph textregions Als dit algoritme tot een verbetering van de leesvolgorde leidt, dan nieuwe pagexml maken met deze nieuwe volgorde.

brambg commented 4 months ago

Leon:

Bij het selecteren van documenten voor annotatie, heeft Kay er erg veel afgekeurd omdat er fouten in de herkenning van regio's en lijnen geslopen zijn. Hiervoor heeft hij ook een typologie van dit soort problemen gedefinieerd, o.a. met voorbeelden: https://surfdrive.surf.nl/files/index.php/apps/richdocuments/documents.php/index?fileId=11462342518&dir=%2FShared%2FGLOBALISE_shared_team%2Fgeneral%2Fhtr. Ook bij een nieuwe selectie van documenten treden deze fouten op. Ons overzicht is geüpdatet: https://github.com/globalise-huygens/annotation/blob/main/2024/document_metadata.csv. In de kolom 'Quality Check' staat er TRUE als dit document straks geannoteerd kan worden, maar eerst hopen we een deel van de voorheen als FALSE gelabelde documenten toch te gebruiken door bijvoorbeeld de volgende codes te fixen met behulp van de pagexmltools. In Kay's woorden: 3.1.1, 3.1.2 & 3.2 (incorrect reading order) I've encountered quite a few times in the naamboekjes and can be resolved (for a lot of the cases, at least) by ordering based on vertical height rather than Loghi's diagonal model. 2.6.3 (lines of the neighbouring page being given a text region) can probably be solved by making a rule about lines less than 20 percent of the page width touching the edge of the scan. De 3.1.1, 3.1.2 & 3.2 codes zouden de eerste zijn om te proberen op te lossen.

Denk je dat jij een poging kunt wagen en dit ook kunt integreren in de stappen die je al uitvoert bij het maken van de lopende tekst van de documenten? Vorige week zeiden we dat het misschien handig is om de PageXML te veranderen, omdat we dan de provenance wat beter kunnen volgen via de TextRepo-versies. Maar, als hier betere oplossingen voor zijn, dan hoor ik die ook graag natuurlijk. Dit hangt ook samen met een wens om iets beter overzicht op de nu gemaakte documenten te krijgen, maar daar komen we tijdens een volgend overleg met o.a. Arno en Lodewijk verder op terug.

brambg commented 3 months ago

Een versie is er, wacht op commentaar van globalise

brambg commented 2 months ago

De tweede versie is aan het globalise team doorgegeven, het wachten is op commentaar.