DaanKuyper / DocumentSplitting

Afstudeer Thesis
0 stars 0 forks source link

update 18/11/2021 #3

Open DaanKuyper opened 2 years ago

DaanKuyper commented 2 years ago

Dynamisch ophalen en uitlezen van PDF bestanden, direct vanaf de rijksoverheid website. Gewisseld van .NET package voor het behandelen van PDF bestanden: van PdfSharp naar iText 7. PdfSharp is zeer sterk in het opstellen van PDF bestanden, maar was niet geschikt voor het uitlezen van bestaande PDF tekst: ik liep vast bij PDF bestanden met Unicode encoding op de tekst elementen. iText 7 is hier meer geschikt voor. iText 7 is ook open source en gratis beschikbaar, en heeft zelfs een OCR package speciaal voor PDF ( ! ). Er moet uitgezocht worden of deze OCR volstaat voor dit project.

In overzicht krijgen welke type PDF documenten te vinden zijn op rijksoverheid. Ook is de link met de inventarisnummers van documenten nog niet gelukt.

Zoveel mogelijke nuttige data direct uit de PDF text halen: type bestand, betrokken onderwerpen, datum en inventarisnummer etc... Deze data vervolgens gebruiken om alle bestanden te categoriseren en een overzicht te maken (CSV of dergelijk). Start maken met het bepalen van welke documenten gesplit moeten worden en op welke wijze dit bepaald zou moeten worden.

DaanKuyper commented 2 years ago

Helaas ben ik afgelopen maandag ziek geworden en hoewel ik nog wel gewerkt heb aan het project heb ik minder progressie kunnen maken dan gewild. In plaats daarvan heb ik vooral veel in bed gelegen... Ik heb morgenochtend een test afspraak met de GGD, hopelijk blijk hieruit dat het een griepje is wat van zelf weer overwaait.

maartenmarx commented 2 years ago

hi @DaanKuyper , beterschap joh. Ik hoop ook op een griep voor jou en niet wat ergers. Als dat wel zo is moet je meteen de studieadviseur inlichten over mogelijk uitstel.

dataset ophalen en klaarmaken

Ik zie graag dat je het zo doet

  1. Maak een script dat alles netjes download, en documenteert, en dat helemaal alleen draait.
  2. Ik zou het ook zo moeten kunnen draaien zonder al te veel ingewikkeld installatie gedoe.
  3. Dus werk liefst met open, veel gebruikte spullen, als linux curl en wget.
  4. Zorg dat je een helder bestand hebt, met goede folders, en subfolders en een net spreadsheet waar alles instaat.

data set beschrijven

  1. Beschfrijf de dataset in een rapportje
    • hoeveel "dossiers", hoeveel files, distributie van files per sossier, szelfde voor hoeveel woorden, hoeveel Gb
    • kwaliteit:
      • "aantal woorden per pagina", distributie daarvan per dossier
      • dossiernummers
      • als het lukt een inschatting van het deel dat weggelakt is
      • wat je verder zelf opvalt
  2. Ik zou pdftotext en pdftohtml -xml op de linux command line gebruiken. Dat zijn heel betrouwbare krachtiuge programmas.
  3. Tsja, en dan pandas, dat is hier ideaal voor, samen met een XML parser als dat echt nodig is.

schema

Ik raad je echt aan beide delen volgende week helemaal afgerond te hebben. Jullie hebben niet veel tijd, en dit is pas het voorbereidende werk!

succes en nogmaals beterschap!