Open DaanKuyper opened 2 years ago
Helaas ben ik afgelopen maandag ziek geworden en hoewel ik nog wel gewerkt heb aan het project heb ik minder progressie kunnen maken dan gewild. In plaats daarvan heb ik vooral veel in bed gelegen... Ik heb morgenochtend een test afspraak met de GGD, hopelijk blijk hieruit dat het een griepje is wat van zelf weer overwaait.
hi @DaanKuyper , beterschap joh. Ik hoop ook op een griep voor jou en niet wat ergers. Als dat wel zo is moet je meteen de studieadviseur inlichten over mogelijk uitstel.
Ik zie graag dat je het zo doet
pdftotext
en pdftohtml -xml
op de linux command line gebruiken. Dat zijn heel betrouwbare krachtiuge programmas.pandas
, dat is hier ideaal voor, samen met een XML parser als dat echt nodig is.Ik raad je echt aan beide delen volgende week helemaal afgerond te hebben. Jullie hebben niet veel tijd, en dit is pas het voorbereidende werk!
succes en nogmaals beterschap!
Dynamisch ophalen en uitlezen van PDF bestanden, direct vanaf de rijksoverheid website. Gewisseld van .NET package voor het behandelen van PDF bestanden: van PdfSharp naar iText 7. PdfSharp is zeer sterk in het opstellen van PDF bestanden, maar was niet geschikt voor het uitlezen van bestaande PDF tekst: ik liep vast bij PDF bestanden met Unicode encoding op de tekst elementen. iText 7 is hier meer geschikt voor. iText 7 is ook open source en gratis beschikbaar, en heeft zelfs een OCR package speciaal voor PDF ( ! ). Er moet uitgezocht worden of deze OCR volstaat voor dit project.
In overzicht krijgen welke type PDF documenten te vinden zijn op rijksoverheid. Ook is de link met de inventarisnummers van documenten nog niet gelukt.
Zoveel mogelijke nuttige data direct uit de PDF text halen: type bestand, betrokken onderwerpen, datum en inventarisnummer etc... Deze data vervolgens gebruiken om alle bestanden te categoriseren en een overzicht te maken (CSV of dergelijk). Start maken met het bepalen van welke documenten gesplit moeten worden en op welke wijze dit bepaald zou moeten worden.