Open maartenmarx opened 2 years ago
Hi @maartenmarx Het spijt mij, ik ben laat met mijn update. Het komt door mijn examensweek en veel final deadlines (maar vandaag ben ik klaar met alles en focus me volledig op de thesis).
Ik heb wel een EDA gemaakt en Ik heb met Fajar gepraat zodat ik mijn tesseract kan verbeteren. Ik ga dit weekend een beter update geven over de rest van de issues.
Fijn weekend !! Ammar
Hi @maartenmarx Dit is een kleine update.
Ik heb onderzocht hoe weglakken wordt gedaan en heb hier aantekeningen geschreven. Notebook: https://github.com/alhasha001/thesis/blob/main/thesisDocument/Redaction%20process.ipynb
Ik heb een EDA geschreven maar ik wist niet hoe ik een goede EDA moest schrijven over dataset van pdf/afbeeldingen. Ik wil graag wat tips van u om een goede EDA te schrijven voor mijn scriptie. EDA PDF: https://github.com/alhasha001/thesis/blob/main/thesisDocument/EDA_Ammar%20Alhashmi.pdf
Nu ben ik nog bezig met de volgende punten:
1- De tersseract-ocr can Linux werkt goed maar soms mist het nog steeds wat artikel nummers. Volgens Fajar moet ik nog mijn preprocessing wat verbetern en dan moet het goed werken
2- Het is gelukt met het berekenen van de percentage van de weggelakte text. (die komt nog deze week in aparte notebook)
3- Bcubed P en R test
Hi @alhasha001 ,
Dank vor je update. Hier mijn commentaar.
succes! maarten
Hi @alhasha001 , tijd weer voor een update. Heb jij al een EDA gemaakt? Dat is allicht een mooi idee om daar alvast een stukje ovefr te schrijven voor jhe scriptie. Gewoon wat geinige tellingen op je corpus. succes maarten