Open DaanKuyper opened 2 years ago
Beste @maartenmarx,
Hierboven mijn bevindingen van gisteren. Ik moet met spijt zeggen dat ik zeker niet zo ver ben gekomen als ik wilde.. Maar na gisteren een hele dag lopen worstelen met code, heb ik gelukkig vandaag een idee hoe ik verder kan. Echter wordt het wel noodzakelijk dat ik tijd ga steken in het opstellen van de 'first draft' versie van mijn scriptie. Dit zal deze aankomende drie dagen de prioriteit hebben.
Ik begin door te krijgen dat ik erg achter loop op mijn planning - zeker als er meer dagen komen waarop ik niet de progressie weet te boeken die ik zoek. Het lijkt mij verstandig als ik hierover Chrysa en Florian (de algemene project begeleiders) informeer. Er is wellicht nog geen reden tot paniek, maar ik moet toegeven dat ik de stress toch wel erg begin te voelen.
Het lijkt mij prettig als we er op Zoom verder over praten, hieronder een link: https://us05web.zoom.us/j/88166011916?pwd=NDhaLzJmakxFYis3akRZdXdrYS9tQT09
Ik ben de hele dag beschikbaar.
Hi @DaanKuyper , dit klinkt allemaal niet best. Ik probeerde net in de zoom te komen, maar je bent er niet. Kan je me effe bellen 0640016120
Wat hierboven staat is niet bemouedigend, en ook geen resultaat. Je hebt ook niks gedaan met alle pdf text xml's die ik gemaakt heb.
Verbetering gemaakt aan het C# solution projecten: afhandelen van errors die voortkomen mogelijke fouten in de initialisatie parameters. Verbetering aan de manier waarop OverviewReports worden samengesteld.
Het inlezen van PDF en ophalen van meta data gemaakt in zowel iText 7 core, als in PDFSharp core. PDFSharp is veel sneller, maar lijkt niet alle PDF encryption methodes te ondersteunen en is veel foutgevoelig in de implementatie. iText 7 is open source, maar de licensing is minder openbaar dan PDFSharp (iText 7: GNU Affero General Public License & PdfSharp core: MIT License)
Ik heb zowel van iText 7 als van PdfSharp een csv overview report bestand gemaakt en deze ingelezen in excel:
PdfSharp core Overview Report iText 7 Overview Report
Geen van de twee libraries (ofwel Packages) kan foutloos alle bestanden parsen. En in de log.txt file kan teruggelezen worden welke documenten voor een error zorgen. Deze errors lijken diep vanuit de libraries te komen en zijn tot dus ver niet makkelijk te verklaren of verhelpen. Een voorbeeld hiervan is hieronder gepubliceerd:
PdfSharp Core: (299 is passed without errors, then error is encountered for next record and skipped, afterwards a new record 300 is passed without errors)
Writing Pdf OverviewReport
C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-05_0272cdb141e62321341591f0959794a2_wob-documenten.pdf
The given key 'inf' was not present in the dictionary.
Writing Pdf OverviewReport
iText 7:
Writing Pdf OverviewReport
C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-05_0272cdb141e62321341591f0959794a2_wob-documenten.pdf
Unable to cast object of type 'iText.Kernel.Pdf.PdfLiteral' to type 'iText.Kernel.Pdf.PdfNumber'.
Writing Pdf OverviewReport