JustinBon / thesis

Master thesis project
0 stars 0 forks source link

Goede start maken nu #6

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

Hi @JustinBon ,

Ik hoop dat het gaat joh, en dat je niet positief bent. Beterschasp!!

Hier wat tips om nu echt een goede start te gaan maken. Het helpt enorm om heel concreet te worden in een scriptie proces: dan hak je de taak op in kleine lekkere brokjes, die eigenlijk helemaal in 1 notebook af te ronden zijn, en die je dan zo kunt plakken in je scriptie.

Voor mij helpt dat nu om te zien waar je toe is staat bent, en wat ik kan verwachten, en waartoe ik je kan brengen.

  1. Zet ook de pdf van je thesis design en de laatste versie van je scriptie in je github. Dat werkt een stuk sneller voor iedereen die even wat wil teruglezen.
  2. Bekijk het schema van Maik, bekijk waar hij die attributen uit wil/kan halen, en ga dat doen. Jij werkt op zowel het besluit-document als op de bijlagen, niet op de inventaris lijst

Onderzoeksvragen

  1. Zijn mooi in je design, maar nu wil ik er een hoop zien die nog weer subsubvragen zijn. Dingen die je echt meteen in een notebook kunt uitwerken en evalueren.
  2. Wat voorbeelden, gebaseerd op jouw eerste verkenning (zie https://github.com/JustinBon/thesis/issues/5)
    • How well can we extract dates, together with their type, with a rule based system, following XXX (referentie, hopelijk een code met mooie regexen). For types we dintinguish: hier wat voorbeelden (datum indiening wobverzoek, datum "voldoening" wobverzoek, ....???
    • Same maar nu voor minsieteries/overheiodsorganen, maar nu ook met een link naar hun website/wikipediapagina/...
    • Same for die wetten, plus link
    • How well does the spacy location NER work on these documents? How much influence have OCR-mistakes on the recall (expecting that it uses a gazeteer)?
  3. Ga door de lijst van metadata in het schema van Maik, en bekijk voor elke ervan wat jij ermee kunt, en allicht zo ja, hoe. Maak daar een mooi overzicht van, dat volledig is (dus je behandelt alles in het schema).

Ik verwacht begin volgende week twee nette notebooks met (baseline) extractors voor 2 voorbeelden uit je verkenning, compleet met alles er op en eraan.

OK, een heel verhaal. Schrik er ajb niet van. Ik wil je laten slagen, op tijd en met een mooi cijfer. Dat kan alleen als we eerlijk met elkaar zijn, en allebei leveren. Nu is het echt even aan jou om te laten zien wat je waard bent.

Leg nu een mooi fundament voor een heerlijke scriptietijd, Justin. Echt, wat ik hierboven bescjrijf is een mooi fundament, maar natuurlijk maar een begin.

succes, ik zie uit naar je notebooks, maarten

JustinBon commented 2 years ago

Hey @maartenmarx ,

Hai @JustinBon , mijn comentaar hier in bold. Beterschap jongen!!

Helaas was de test wel positief, maar dat komt allemaal wel goed

Verdiep je ook in de verschilledne maten voor NE evaluatie: Dit gebruik ik altijd: https://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/ Ik raad je aan het systeem van semeval te gebruiken.

Strict: exact boundary surface string match and entity type;

Exact: exact boundary match over the surface string, regardless of the type;

Partial: partial boundary match over the surface string, regardless of the type;

Type: some overlap between the system tagged entity and the gold annotation is required;

ik zie ernaar uit. Spannend hoor. Een leuk klusje als je je niet echt lekker voelt hoop ik ;-)

JustinBon commented 2 years ago

hey @maartenmarx ,

Ik heb nu twee extractors gemaakt, eentje dus van datums en nu ook een voor ministeries . Ik ben wel blij met hoe die van de datums er uit is gekomen met gewoon redelijk goede preformance enzo maar de ministeries is toch wel wat minder gelukt. Ik wilde met gazetteers ook nog werken maar ik denk dat dat uiteindelijk niet de beste oplossing was voor dit. Ik wil gaan kjiken naar of dit gedaan kan worden door het spacy model bij te werken met custom data maar dat moet nog even wachten IVM de deadline voor aanstande vrijdag.

Justin

maartenmarx commented 2 years ago

Hi @JustinBon ,

  1. Leuk joh! Die datums zijn inderdaad denk ik af. Heel mooi. Nu zou ik infderdaad gaan kijken of je kunt uitvogelen "wat voor datum het nou was". Je zsou kunnen denken aan een POS tagger, en dan het werkwoord voor en na de datum extraheren (misschien uit dezelfde zin). spacy kan dat allemaal voor je. En daar dan het lemma van nemen om te normaliseren. Zou dat wat zijn?
  2. Die ministeries zijn lastig, en je voorbeeld met elipsis (jij noemt dat sommatie) is ertg mooi. Zet dat zeker in je scriptie!
  3. Met google kan je proximity search doen: ministeries? AROUND(1) maarten daar zou je ook aan kunnen denken.

succes! maarten