Update 13 05 22 - Githubissues

Hey @maartenmarx ,

Ik heb een slechte week achter gehad als het gaat om werken aan scriptie. Ik had minder tijd dan dat ik normaal heb en ik kwam ook een beetje vast te zitten met wat ik nou moest doen voor die ministeries extractor vooral met betrekking tot alle andere varianten die ik had gemaakt. Die heb ik namelijk op een hele andere manier geevalueerd. Dat moet ik dus allemaal op nieuw doen met de evaluatie methode die ik nu gebruik. Ik heb wel het advies genomen om 1 notebook te hebben per RQ. Die heb ik nu allemaal staan in dit mapje..

Dan even over deze issue . Ik heb gekeken naar een aantal van die besluit documenten en het lijkt alsof waar om gevraagd is altijd op de zelfde plek staat. Ik denk dat je daar niet eens ml voor nodig zou hebben. Ik moet nog wel even verder kijken wat de beste aanpak daar zou zijn maar ik denk dat het zeker mogelijk is. Lijkt mij inderdaad ook wel belangrijk om te weten.

Ik wil ook nog even terugkomen op het document splitting. In deze issue ging het er over dat er geen gesplitte documenten waren en dat dat niet heel erg zou uitmaken voor mij. Ik zat dus te denken deze week dat ik dat juist wel nodig zou hebben als ik metadata van specifieke documenten wil hebben (bijvoorbeeld datum van creatie of wat voor soort document het is).

Ik ga volgende week aan de bak met meer extractors vooral met die waar naar gevraagd is

Justin

Hi @JustinBon ,

Bedankt. He wat vervelend voor je joh.

Ik heb gekeken naar je date notebook, en er gebeurt van alles maar het is voor een buitenstaander nog best lastig te volgen.
Ik raad je aan nu in "scriptie-woorden" op te schrijven wat hier nu gebeurt. Dus hoe je datums matched en hoe je evalueert, en dan de resultaten.
Ik doe dat altijd bovenaan in het notebook in een markdown cel, en dan laat ik dat even rusten, en deel het met anderen, en als het dabn goed is copieer ik het naar mijn artikel. Dat zou jij ook kunnen doen. Dan is het ook makkelijk te delen met mij of Joao.
Het helpt denk ik ook emorn voor jezelf zodat het duidelijk is wat je eigenlijk doet, en dat dan ook voor andere dingen die je wilt extracten kunt gerbuiken.
Leuk dat je de "waar gaat het over" issue ook gaat oppikken. Inderdaad staat dat vaak aan het begin, dus als je de eerste zoveel woorden pakt, heb je het er al inzitten. Maar het is ook wel leuk het heel precies te hebben, bijvoorbeeld om in een zoekmachine bij een hit-snippet te plaatsen. Dus probeer dat ook echt.
Als je graag met gesplitste documenten wilt werken kan je de data uit de document splitting challenge nemen. Dan heb je de ground truth erbij, en kan je de lange PDFs dus opsplisten. Dat staat op https://surfdrive.surf.nl/files/index.php/s/oDeqCFG2p0C65zY met wachtwoord WobIr22
Dus ik raad je aan
- zowel te gaan schrijven
- en die "waar gaat het over: extractor eens te proberen.
  - We hebben dus met openstate zo'n 1000 juiste beschrijvingen die je als evaluatiemateriaal kunt gebruiken.

succes maarten

JustinBon / thesis

Update 13 05 22 #17