DaanKuyper / DocumentSplitting

Afstudeer Thesis
0 stars 0 forks source link

update 11/11/2021 #2

Open DaanKuyper opened 3 years ago

DaanKuyper commented 3 years ago

Schrijven (en vervolgens verbeteren) van het project plan. Verder ingelezen in literatuur met betrekking tot OCR.

Een correcte versie van het project plan op tijd insturen om goedgekeurd te laten worden. Als de nieuwe versie wel aan verwachting voldoet zal ik Florian mailen met een verzoek om de oude versie te vervangen.

Start met het schrijven van code: begin aan het opzetten van een project voor het inlezen van PDF inhoud en meta data. Als start input kan hiervoor de JSON bestanden gebruikt worden die ik vorige week heb opgesteld.

DaanKuyper commented 3 years ago
  1. Kunnen we vanaf nu overschakelen naar communicatie via githubn issues? Zet dit antwoord hier ook graag in een issue op je github.
  2. Ik vind dat .net prima hoor. Ik hoop dat je daar net zo makkelijk al hele ver gevroderded modules kunt inpluggen als in python, maar allicht is dat via de shell ook nog heel makkelijk.
  3. Ik vind een week voor dat leeghalen van die site best wel lang. Ik zou het in een dag totaakl met de hand kunnen.
  4. Ik denk dat je eerst zal moeten OCRen, en dan kan je pas splitsen. Heb je al eens naar de data gekeken?
  5. Als jouw spul lekker werkt kan het natuurlijk nog steeds bij FTM ingezte worden. Het is alleen een stuk lastiger iemand te vinden voor kleine aanpassingkjes. Het is goed om veel dingen dan te parametriseren zodat men niet in de code hoeft te duiken, maar veel kan doen in een init file (bivoorbeeld regexes voor splitting of het oppikken van identifier codes aanpassen).
  6. En dat elasticsearch zal ook best meevalen vanuit .net. Dat lukt vast nog wel. Nu snel aan de slag. De hele bubs ophalen, en beginnen met klooien aan je eerste bestand. Ik had een mooie over Sywert van Lienden. Heel spannend allemaal!

afspraak 17 Nov

  1. Alles vand e covid site netjes opgehaald.
  2. Net overzicht van wat er nu in je dataset zit.
    • tellingen aantal paginas, aantal met OCR, aantal zonder, aantalk woorden, etc, etc aantal wobs, aantal dossierstukken
  3. 2-3 vette PDFs handmatig in documenten geknipt (gewoon in een file aangeven op welke pagina een nieuw document begint).
    • helder inzicht in die inventarisnummers
    • wat eerste ideeen over het mogelijk opsplitsen
    • Ik raad pdftotext en vooral ook pdftohtml -asxml aan. De laatste geeft heel veel info (mits het geOCRerd is), ook over fonts, en de plek (bounding box) van alle text. Intuitief (zo zou een mens die niet kan lezen het ook doen, kan je daarop denk ik al heel goed splitsen).
      • Maak zelf een regel gebaseerd systeem of probeer het te leren.
  4. Net overzicht over deze 3 punten als issue op github waarin je mij @mentioned.
maartenmarx commented 2 years ago

@DaanKuyper , super joh! Grag zie ik een fijn overzicht van de puntjes op 17 november, en dan kunnen we eens kijken hoe het loopt. Ik denk dat je dan een goede eerste indruk hebt. We zouden donderdag of vrijdag kunnen zoomen om je plannen precieser te maken.Succes! Maarten