Open JustinBon opened 2 years ago
Beste @JustinBon , ik zie dan uit naar je evaluatie.
Ik heb je het adres van de openstate stukken toch gestuurd? Daar heb je ook een soort gouden standaard in de cvorm van excel bestanden bij. Ik zou daarop gaan evalueren, en eigenlijk kan je proberen elke kolom autoamtisch te extraheren.
Dat staat https://surfdrive.surf.nl/files/index.php/s/qPJrI24TZVGtlPg hier.
Allicht is het goed eens te komen op een bespreking. Dan kunnen we eens overleggen hoe ver je nu bent.
Probeer dit eens te beschrijvena an de hand van die openstate excels/kolommen.
succes maarten
Hey @maartenmarx ,
Die surfdrive heeft alleen maar de pdf's en die excel documenten met de ground truth. Maar die excel documenten hebben niet de volledige text van het besluit. Dat heb ik wel nodig anders heb ik geen text waaruit ik kan extracten. Ik zou die text ge-ocr'ed moeten hebben want als ik de text uit de pdf's wil halen zonder ocr krijg ik niet te gebruiken text eruit. Ik kan het op zich ook zelf ocr'en maar dan komt er denk ook wel mindere kwaliteit uit
Ik zal voor deze week een gesprekje in plannen
Justin
Hi @JustinBon ,
pdftotext
geprobeerd? Allicht heb je gewoon text in de PDFs ziten bij heel veel van de docs. Dat kan je zelf ook checkn met control F. Ik dacht dat het best meeviel.Hey @maartenmarx ,
Ik had pypdf2 geprobeerd maar die werkte dus niet goed. pdftotext werkt een stuk beter, dus daar kan ik wel mee aan de slag
Justin
Hey @maartenmarx ,
Ik heb deze week die extractor van waar is om gevraagt gemaakt in dit notebook. Ik moet het alleen nog evalueren. Daarnaast heb ik ook feedback die ik van Lester heb gekregen over de introductie + related literature verwerkt. Volgende week ga ik gewoon verder met extractors en schrijven.
Is er trouwens meer OCR'ed data behalve de covid wob stukken en de gelderland wob stukken?
Justin