Goede start maken nu - Githubissues

maartenmarx commented 2 years ago

Hi @JustinBon ,

Ik hoop dat het gaat joh, en dat je niet positief bent. Beterschasp!!

Hier wat tips om nu echt een goede start te gaan maken. Het helpt enorm om heel concreet te worden in een scriptie proces: dan hak je de taak op in kleine lekkere brokjes, die eigenlijk helemaal in 1 notebook af te ronden zijn, en die je dan zo kunt plakken in je scriptie.

Voor mij helpt dat nu om te zien waar je toe is staat bent, en wat ik kan verwachten, en waartoe ik je kan brengen.

Zet ook de pdf van je thesis design en de laatste versie van je scriptie in je github. Dat werkt een stuk sneller voor iedereen die even wat wil teruglezen.
Bekijk het schema van Maik, bekijk waar hij die attributen uit wil/kan halen, en ga dat doen. Jij werkt op zowel het besluit-document als op de bijlagen, niet op de inventaris lijst

Onderzoeksvragen

Zijn mooi in je design, maar nu wil ik er een hoop zien die nog weer subsubvragen zijn. Dingen die je echt meteen in een notebook kunt uitwerken en evalueren.
Wat voorbeelden, gebaseerd op jouw eerste verkenning (zie https://github.com/JustinBon/thesis/issues/5)
- How well can we extract dates, together with their type, with a rule based system, following XXX (referentie, hopelijk een code met mooie regexen). For types we dintinguish: hier wat voorbeelden (datum indiening wobverzoek, datum "voldoening" wobverzoek, ....???
- Same maar nu voor minsieteries/overheiodsorganen, maar nu ook met een link naar hun website/wikipediapagina/...
- Same for die wetten, plus link
- How well does the spacy location NER work on these documents? How much influence have OCR-mistakes on the recall (expecting that it uses a gazeteer)?
Ga door de lijst van metadata in het schema van Maik, en bekijk voor elke ervan wat jij ermee kunt, en allicht zo ja, hoe. Maak daar een mooi overzicht van, dat volledig is (dus je behandelt alles in het schema).

Ik verwacht begin volgende week twee nette notebooks met (baseline) extractors voor 2 voorbeelden uit je verkenning, compleet met alles er op en eraan.

goede definitie van je problee, met goedevoorbeelden
aanpak, met literatuur verwijzing(en)
helder uitleg van je aanpak
toepassing op een flinke testset
evaluatie met echte maten bekend uit de NER evaluatie (dit vereist dus handcoderen door jou)
foiutenanalyse
conclusie over bruikbaarheid, en eventuele verbeteringen (geen flauwe opmerkingen hier (over gebrek aan tijd/future research/etc) , echte ideeen gebaseerd op je foutenanalyse. Als je die niet hebtm zeg je dat gewoon eerlijk).

OK, een heel verhaal. Schrik er ajb niet van. Ik wil je laten slagen, op tijd en met een mooi cijfer. Dat kan alleen als we eerlijk met elkaar zijn, en allebei leveren. Nu is het echt even aan jou om te laten zien wat je waard bent.

Leg nu een mooi fundament voor een heerlijke scriptietijd, Justin. Echt, wat ik hierboven bescjrijf is een mooi fundament, maar natuurlijk maar een begin.

succes, ik zie uit naar je notebooks, maarten

JustinBon commented 2 years ago

Hey @maartenmarx ,

Hai @JustinBon , mijn comentaar hier in bold. Beterschap jongen!!

Helaas was de test wel positief, maar dat komt allemaal wel goed

De thesis design staat in de github hier. In deze map gaan al dit soort documenten komen ok fijn
Die lijst van Maik is die ene in zijn presentatie die op de gezamelijke github staat? nee, zijn json schema, jij zal dat moeten aanvullen met additionele metadata. Ik stel een sleutel extracted knowledge voor op het hoogste nioveau met weer een geneste dict met alle dingen die jij eruit gaat halen. Zo hou je mooi controle over jouw deel van het schema.
Voor die onderzoeksvragen dus eigenlijk (sub-)sub-vragen voor elk deel van de thesis zodat de vragen al alles een beetje beschrijven? exact, die subsubvragen zijn dan heel erg concreet
Voor die twee notebooks is dus het idee om twee categorieen te kiezen, laten we zeggen datums en ministeries, en dan kijken hoeveel ik eruit kan halen gebaseerd op handmatig labellen en zo dus die testset maken. En dan dus er bij schrijven hoe en wat ik gedaan heb en wat de conclusies zijn. Heb ik dat goed begrepen? nee, niet echt. Je maakt een systeem gebaseerd op reguliere expressies en patronen, en test dat systeem op basis van een hand geannoteerde set voorbeelden. Ik raad je strek aan het eerlijk te doen. Maak eerst je test set apart. Zet hem weg en kijk en nooit meer naar. Ga dan je regexen ontwikkelen, met een dag rust. En natuurlijk bekijk je weer wat voorbeelden en test je je regex, maar dan echt op andere data dan je test data. Zo zorg je ervoor dat je niet overfit. Voor datums verwacht is best een hoge P en R, voor die wetten en overheidsorganen is een recall van .5 met een precisie van .8 al heel mooi.

Verdiep je ook in de verschilledne maten voor NE evaluatie: Dit gebruik ik altijd: https://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/ Ik raad je aan het systeem van semeval te gebruiken.

Strict: exact boundary surface string match and entity type;

Exact: exact boundary match over the surface string, regardless of the type;

Partial: partial boundary match over the surface string, regardless of the type;

Type: some overlap between the system tagged entity and the gold annotation is required;

ik zie ernaar uit. Spannend hoor. Een leuk klusje als je je niet echt lekker voelt hoop ik ;-)

JustinBon commented 2 years ago

hey @maartenmarx ,

Ik heb nu twee extractors gemaakt, eentje dus van datums en nu ook een voor ministeries . Ik ben wel blij met hoe die van de datums er uit is gekomen met gewoon redelijk goede preformance enzo maar de ministeries is toch wel wat minder gelukt. Ik wilde met gazetteers ook nog werken maar ik denk dat dat uiteindelijk niet de beste oplossing was voor dit. Ik wil gaan kjiken naar of dit gedaan kan worden door het spacy model bij te werken met custom data maar dat moet nog even wachten IVM de deadline voor aanstande vrijdag.

Justin

maartenmarx commented 2 years ago

Hi @JustinBon ,

Leuk joh! Die datums zijn inderdaad denk ik af. Heel mooi. Nu zou ik infderdaad gaan kijken of je kunt uitvogelen "wat voor datum het nou was". Je zsou kunnen denken aan een POS tagger, en dan het werkwoord voor en na de datum extraheren (misschien uit dezelfde zin). spacy kan dat allemaal voor je. En daar dan het lemma van nemen om te normaliseren. Zou dat wat zijn?
Die ministeries zijn lastig, en je voorbeeld met elipsis (jij noemt dat sommatie) is ertg mooi. Zet dat zeker in je scriptie!
Met google kan je proximity search doen: ministeries? AROUND(1) maarten daar zou je ook aan kunnen denken.

succes! maarten

JustinBon / thesis

Goede start maken nu #6

Onderzoeksvragen