JustinBon / thesis

Master thesis project
0 stars 0 forks source link

research questions #1

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

Hi @JustinBon ,

Dank voor je eerste updates. Ik zou graag zien dat je je onderzoeksvragen concreet gaat maken en opschrijven. Ik zet hier een voorzetje van die van Fajar. Jij komt op in punt 3.

Dus ik zou jouw onderzoek alleerst richten op de simpele metadata , en daarna de meer specifieke zoals jij bewschjrijft. Dus probeer eens een mooi lijstje te maken van dingen over een document die je zou willen weten en als attribuut-waarde paen beschikbaar hebt per document, zodat je daarop kunt zoeken, en ook kunt tellen.

Dit kan je uit de literatuur halen, en natuurlijk ook uit die inventaislijstjes. En natuurlijk doior te kijken. Het veschilt vast ook per type wat je als meta-data wilt en kunt pakken.

Daarnaast naturlijk jouw dingen

RQ

Main question

How much can we improve the machine-readability of the documents the Dutch government provides when fullfilling requests made under the Freedom of information Act (WOB)?

This entails 3 things: 1) making the text in the documents machine readable (OCR), 2) having the documents available as seperate files, and 3) collecting the correct relevant metadata for each of these documents.

The aim of this thesis is to set strong baselines for the first two points: OCR and document segmentation. The correspong questions are

  1. Given the state of the documents as provided by the Dutch government, how much of the text can we extract using off the shelf but state of the art OCR technology?
    1. What OCR error rates can we obtain compared to perfect digital-born documents?
    2. How much can we improve on the default settings of the OCR software by
      • language recognition (different from Dutch)
      • (adaptive) binarization
      • resolution of the images
      • ...maybe you have even mnore....
      • and against what costs (in extra processing time)?
  2. With what accuracy can we segment a stream of concatenated PDFs into the original documents?
    1. Using heuristics based on font size and type.
    2. Using heuristics based on "headers" of documents.
    3. Using the content (the words in the documents)?
    4. Can a machine learned approach improve on a rule based system?
      • How can we create enough train and test material with minimal costs?
JustinBon commented 2 years ago

Hey @maartenmarx ,

bedankt! Hier kan ik gelijk mee gaan werken. Betekend dit dan ook dat mijn onderzoeksvraag hetzelfde is als die van Fajar maar dan gericht op het punt collecting the correct relevant metadata for each of these documents?

maartenmarx commented 2 years ago

nee, hij doet subvragen 1 en 2, en nog minstens 1 iemand anders doet ook 2. De hoofdvraag is natuurlijk voor iedereen hetzelfde. succes joh