Open maartenmarx opened 2 years ago
Hey @maartenmarx ,
Hai @JustinBon , mijn comentaar hier in bold. Beterschap jongen!!
Helaas was de test wel positief, maar dat komt allemaal wel goed
De thesis design staat in de github hier. In deze map gaan al dit soort documenten komen ok fijn
Die lijst van Maik is die ene in zijn presentatie die op de gezamelijke github staat? nee, zijn json schema, jij zal dat moeten aanvullen met additionele metadata. Ik stel een sleutel extracted knowledge voor op het hoogste nioveau met weer een geneste dict met alle dingen die jij eruit gaat halen. Zo hou je mooi controle over jouw deel van het schema.
Voor die onderzoeksvragen dus eigenlijk (sub-)sub-vragen voor elk deel van de thesis zodat de vragen al alles een beetje beschrijven? exact, die subsubvragen zijn dan heel erg concreet
Voor die twee notebooks is dus het idee om twee categorieen te kiezen, laten we zeggen datums en ministeries, en dan kijken hoeveel ik eruit kan halen gebaseerd op handmatig labellen en zo dus die testset maken. En dan dus er bij schrijven hoe en wat ik gedaan heb en wat de conclusies zijn. Heb ik dat goed begrepen? nee, niet echt. Je maakt een systeem gebaseerd op reguliere expressies en patronen, en test dat systeem op basis van een hand geannoteerde set voorbeelden. Ik raad je strek aan het eerlijk te doen. Maak eerst je test set apart. Zet hem weg en kijk en nooit meer naar. Ga dan je regexen ontwikkelen, met een dag rust. En natuurlijk bekijk je weer wat voorbeelden en test je je regex, maar dan echt op andere data dan je test data. Zo zorg je ervoor dat je niet overfit. Voor datums verwacht is best een hoge P en R, voor die wetten en overheidsorganen is een recall van .5 met een precisie van .8 al heel mooi.
Verdiep je ook in de verschilledne maten voor NE evaluatie: Dit gebruik ik altijd: https://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/ Ik raad je aan het systeem van semeval te gebruiken.
Strict: exact boundary surface string match and entity type;
Exact: exact boundary match over the surface string, regardless of the type;
Partial: partial boundary match over the surface string, regardless of the type;
Type: some overlap between the system tagged entity and the gold annotation is required;
ik zie ernaar uit. Spannend hoor. Een leuk klusje als je je niet echt lekker voelt hoop ik ;-)
hey @maartenmarx ,
Ik heb nu twee extractors gemaakt, eentje dus van datums en nu ook een voor ministeries . Ik ben wel blij met hoe die van de datums er uit is gekomen met gewoon redelijk goede preformance enzo maar de ministeries is toch wel wat minder gelukt. Ik wilde met gazetteers ook nog werken maar ik denk dat dat uiteindelijk niet de beste oplossing was voor dit. Ik wil gaan kjiken naar of dit gedaan kan worden door het spacy model bij te werken met custom data maar dat moet nog even wachten IVM de deadline voor aanstande vrijdag.
Justin
Hi @JustinBon ,
ministeries? AROUND(1) maarten
daar zou je ook aan kunnen denken. succes! maarten
Hi @JustinBon ,
Ik hoop dat het gaat joh, en dat je niet positief bent. Beterschasp!!
Hier wat tips om nu echt een goede start te gaan maken. Het helpt enorm om heel concreet te worden in een scriptie proces: dan hak je de taak op in kleine lekkere brokjes, die eigenlijk helemaal in 1 notebook af te ronden zijn, en die je dan zo kunt plakken in je scriptie.
Voor mij helpt dat nu om te zien waar je toe is staat bent, en wat ik kan verwachten, en waartoe ik je kan brengen.
Onderzoeksvragen
Ik verwacht begin volgende week twee nette notebooks met (baseline) extractors voor 2 voorbeelden uit je verkenning, compleet met alles er op en eraan.
OK, een heel verhaal. Schrik er ajb niet van. Ik wil je laten slagen, op tijd en met een mooi cijfer. Dat kan alleen als we eerlijk met elkaar zijn, en allebei leveren. Nu is het echt even aan jou om te laten zien wat je waard bent.
Leg nu een mooi fundament voor een heerlijke scriptietijd, Justin. Echt, wat ik hierboven bescjrijf is een mooi fundament, maar natuurlijk maar een begin.
succes, ik zie uit naar je notebooks, maarten