alhasha001 / thesis

This repository contains the related thesis materials
0 stars 0 forks source link

update 29 maart #5

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

Hi @alhasha001 , tijd weer voor een update. Heb jij al een EDA gemaakt? Dat is allicht een mooi idee om daar alvast een stukje ovefr te schrijven voor jhe scriptie. Gewoon wat geinige tellingen op je corpus. succes maarten

alhasha001 commented 2 years ago

Hi @maartenmarx Het spijt mij, ik ben laat met mijn update. Het komt door mijn examensweek en veel final deadlines (maar vandaag ben ik klaar met alles en focus me volledig op de thesis).

Ik heb wel een EDA gemaakt en Ik heb met Fajar gepraat zodat ik mijn tesseract kan verbeteren. Ik ga dit weekend een beter update geven over de rest van de issues.

Fijn weekend !! Ammar

alhasha001 commented 2 years ago

Hi @maartenmarx Dit is een kleine update.

Ik heb onderzocht hoe weglakken wordt gedaan en heb hier aantekeningen geschreven. Notebook: https://github.com/alhasha001/thesis/blob/main/thesisDocument/Redaction%20process.ipynb

Ik heb een EDA geschreven maar ik wist niet hoe ik een goede EDA moest schrijven over dataset van pdf/afbeeldingen. Ik wil graag wat tips van u om een goede EDA te schrijven voor mijn scriptie. EDA PDF: https://github.com/alhasha001/thesis/blob/main/thesisDocument/EDA_Ammar%20Alhashmi.pdf

Nu ben ik nog bezig met de volgende punten:

1- De tersseract-ocr can Linux werkt goed maar soms mist het nog steeds wat artikel nummers. Volgens Fajar moet ik nog mijn preprocessing wat verbetern en dan moet het goed werken

2- Het is gelukt met het berekenen van de percentage van de weggelakte text. (die komt nog deze week in aparte notebook)

3- Bcubed P en R test

maartenmarx commented 2 years ago

Hi @alhasha001 ,

Dank vor je update. Hier mijn commentaar.

  1. Leuk dat stukje over hoe de overheid het doet. Ik raad je aan referenties te gebruiken naar bronnen. Probeer ook iets over oprecieise en recall van die tools te weten te komen.
  2. Je EDA is niet echt een EDA. Ik verwacxht hier een schatting van de grootte van het probleem, een overzicht van je corpus, en eigenlijk alles wat van belang is om je RQs te beantwoorden.
  3. Ik raad je aan in latex te gaan beginnen.

succes! maarten