Open maartenmarx opened 2 years ago
Hey @maartenmarx ,
bedankt! Hier kan ik gelijk mee gaan werken. Betekend dit dan ook dat mijn onderzoeksvraag hetzelfde is als die van Fajar maar dan gericht op het punt collecting the correct relevant metadata for each of these documents?
nee, hij doet subvragen 1 en 2, en nog minstens 1 iemand anders doet ook 2. De hoofdvraag is natuurlijk voor iedereen hetzelfde. succes joh
Hi @JustinBon ,
Dank voor je eerste updates. Ik zou graag zien dat je je onderzoeksvragen concreet gaat maken en opschrijven. Ik zet hier een voorzetje van die van Fajar. Jij komt op in punt 3.
Dus ik zou jouw onderzoek alleerst richten op de simpele metadata , en daarna de meer specifieke zoals jij bewschjrijft. Dus probeer eens een mooi lijstje te maken van dingen over een document die je zou willen weten en als attribuut-waarde paen beschikbaar hebt per document, zodat je daarop kunt zoeken, en ook kunt tellen.
Dit kan je uit de literatuur halen, en natuurlijk ook uit die inventaislijstjes. En natuurlijk doior te kijken. Het veschilt vast ook per type wat je als meta-data wilt en kunt pakken.
Daarnaast naturlijk jouw dingen
RQ
Main question
This entails 3 things: 1) making the text in the documents machine readable (OCR), 2) having the documents available as seperate files, and 3) collecting the correct relevant metadata for each of these documents.
The aim of this thesis is to set strong baselines for the first two points: OCR and document segmentation. The correspong questions are