JustinBon / thesis

Master thesis project
0 stars 0 forks source link

Update 18-02-2022 #3

Open JustinBon opened 2 years ago

JustinBon commented 2 years ago

Hey @maartenmarx

Bij deze een update van afgelopen week. Aangezien vrijdag de deadline is om Thesis design in te leveren voor peer feedback ben ik de hele week vooral bezig geweest om dit netjes op tijd af te krijgen en dat gaat ook lukken. Daarnaast heb ik ook nog gewerkt aan uitvogelen hoe spaCy NER werkt via de docs en experimenteren (Dit was eigenlijk vorige week maar toen had ik nog geen issue aangemaakt...). Als laatste ben ik bezig geweest met een kleine data analyse van de covid wob data..

Voor volgende week wil ik een in depth analyse gaan doen van de data zodat ik echt goed weet waar ik mee werk. Daarnaast wil ook ook gaan beginnen met het testen van spaCy NER model. Ik wil zeker weten dat het goed zit met de accuracy en precision.

Over het NER model gesproken, in de risk assessment van het Thesis design heb ik vermeld dat het kan zijn dat het NER model niet goed genoeg is. Maar als dat dus niet goed uitpakt hoort er ook een plan B bij en ik heb geen idee wat hier een plan B voor kan zijn (dit is ook de reden waarom ik volgende week al wil beginnen aan NER model testen).

maartenmarx commented 2 years ago

Prima Justin, @JustinBon ik kijk er morgen nog even naar. Hier al mijn lijstje van entities

Entity extractie

groet maarten

files

maartenmarx commented 2 years ago

Hi @JustinBon , hier nog een paar snelle opmerkingen

  1. Goed je 2 RQs, maar erg veel sturing bieden ze niet. Dat zie je terug in je plan, waar ik wel allerlei dingen in zie staan die niet in je vragen staan. Dus maak subvragen, en subsubvragen.
  2. Ik mis in de eerste week een literatuurstudie, en overzicht, en gemotiveerde keuze voor een of twee technieken. Doe dat wel, dat zal je zeker helpen.
  3. Probeer de dingen die je nu al kunt doen, echt gedaan te hebben. het is al lastig genoeg wat je wilt gaan doen. Dus veel van de dingen die je in de eerste weken plande.
  4. Zorg dat je b eide spacies echt lekker aan de praat hebt, en allicht ook de BERT/Roberta ner, en al een beetje weet wat ie kan en wat niet.
  5. Ga alvast zelf met gele pen een paar wob documenten door en geef aan wat je zou willen extraheren, en bij welke soort dat dan hoort, en probeer voor elke soort de patronen te doorzien.
    • kan je die omzetten in een regel? doe dat dan!!
    • denk je dat een classifier die patronen kan ontdekken en leren? Laat hem dan!

Heel gaaf wat je gaat doen! En ontzettend nuttig. Ik zie er enorm naar uit. Als je jezelf iets meer sturing geeft, zal het heerlijk lopen. Succes!!

JustinBon commented 2 years ago

Hey @maartenmarx

Ik heb vandaag helaas niet veel tijd om grote aanpassingen te maken dus ik heb alleen nog de belangrijke dingen aangepast voordat ik het heb ingeleverd: lijst met named entities, kleine update in het project plan, het plan B voor de NER, en 4 sub vragen toegevoegd zodat alle dingen uit het design zijn genoemd.

Volgende week kan ik dan ook beginnen aan punt 2 t/m 5.