JustinBon / thesis

Master thesis project
0 stars 0 forks source link

Update 27 05 22 #20

Open JustinBon opened 2 years ago

JustinBon commented 2 years ago

Hey @maartenmarx ,

Ik heb deze week die extractor van waar is om gevraagt gemaakt in dit notebook. Ik moet het alleen nog evalueren. Daarnaast heb ik ook feedback die ik van Lester heb gekregen over de introductie + related literature verwerkt. Volgende week ga ik gewoon verder met extractors en schrijven.

Is er trouwens meer OCR'ed data behalve de covid wob stukken en de gelderland wob stukken?

Justin

maartenmarx commented 2 years ago

Beste @JustinBon , ik zie dan uit naar je evaluatie.

Ik heb je het adres van de openstate stukken toch gestuurd? Daar heb je ook een soort gouden standaard in de cvorm van excel bestanden bij. Ik zou daarop gaan evalueren, en eigenlijk kan je proberen elke kolom autoamtisch te extraheren.

Dat staat https://surfdrive.surf.nl/files/index.php/s/qPJrI24TZVGtlPg hier.

Allicht is het goed eens te komen op een bespreking. Dan kunnen we eens overleggen hoe ver je nu bent.

Probeer dit eens te beschrijvena an de hand van die openstate excels/kolommen.

succes maarten

JustinBon commented 2 years ago

Hey @maartenmarx ,

Die surfdrive heeft alleen maar de pdf's en die excel documenten met de ground truth. Maar die excel documenten hebben niet de volledige text van het besluit. Dat heb ik wel nodig anders heb ik geen text waaruit ik kan extracten. Ik zou die text ge-ocr'ed moeten hebben want als ik de text uit de pdf's wil halen zonder ocr krijg ik niet te gebruiken text eruit. Ik kan het op zich ook zelf ocr'en maar dan komt er denk ook wel mindere kwaliteit uit

Ik zal voor deze week een gesprekje in plannen

Justin

maartenmarx commented 2 years ago

Hi @JustinBon ,

JustinBon commented 2 years ago

Hey @maartenmarx ,

Ik had pypdf2 geprobeerd maar die werkte dus niet goed. pdftotext werkt een stuk beter, dus daar kan ik wel mee aan de slag

Justin