(WIP) update 1/12/2021 - Githubissues

DaanKuyper commented 2 years ago

achieved :

Verbetering gemaakt aan het C# solution projecten: afhandelen van errors die voortkomen mogelijke fouten in de initialisatie parameters. Verbetering aan de manier waarop OverviewReports worden samengesteld.

Het inlezen van PDF en ophalen van meta data gemaakt in zowel iText 7 core, als in PDFSharp core. PDFSharp is veel sneller, maar lijkt niet alle PDF encryption methodes te ondersteunen en is veel foutgevoelig in de implementatie. iText 7 is open source, maar de licensing is minder openbaar dan PDFSharp (iText 7: GNU Affero General Public License & PdfSharp core: MIT License)

Ik heb zowel van iText 7 als van PdfSharp een csv overview report bestand gemaakt en deze ingelezen in excel:

PdfSharp core Overview Report iText 7 Overview Report

Geen van de twee libraries (ofwel Packages) kan foutloos alle bestanden parsen. En in de log.txt file kan teruggelezen worden welke documenten voor een error zorgen. Deze errors lijken diep vanuit de libraries te komen en zijn tot dus ver niet makkelijk te verklaren of verhelpen. Een voorbeeld hiervan is hieronder gepubliceerd:

PdfSharp Core: (299 is passed without errors, then error is encountered for next record and skipped, afterwards a new record 300 is passed without errors)

[1-12-2021 11:21:18] - 299 C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-05_0272cdb141e62321341591f0959794a2_inventarislijst.pdf passed for operation Writing Pdf OverviewReport
[1-12-2021 11:21:27] - Exception encountered for : C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-05_0272cdb141e62321341591f0959794a2_wob-documenten.pdf
[1-12-2021 11:21:27] - -> Exception message: The given key 'inf' was not present in the dictionary.
[1-12-2021 11:21:27] - 300 C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-12_af354e4966a914add60d84129ac68740_deelbesluit-2-wob-verzoek-dd-26-10-2020-vion-groep.pdf passed for operation Writing Pdf OverviewReport

iText 7:

[1-12-2021 10:33:37] - 299 C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-05_0272cdb141e62321341591f0959794a2_inventarislijst.pdf passed for operation Writing Pdf OverviewReport
[1-12-2021 10:33:43] - Exception encountered for : C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-05_0272cdb141e62321341591f0959794a2_wob-documenten.pdf
[1-12-2021 10:33:43] - -> Exception message: Unable to cast object of type 'iText.Kernel.Pdf.PdfLiteral' to type 'iText.Kernel.Pdf.PdfNumber'.
[1-12-2021 10:33:44] - 300 C:\Users\daan_\source\repos\DocumentSplitting\WOB_Pdfs\2021-10-12_af354e4966a914add60d84129ac68740_deelbesluit-2-wob-verzoek-dd-26-10-2020-vion-groep.pdf passed for operation Writing Pdf OverviewReport

DaanKuyper commented 2 years ago

Beste @maartenmarx,

Hierboven mijn bevindingen van gisteren. Ik moet met spijt zeggen dat ik zeker niet zo ver ben gekomen als ik wilde.. Maar na gisteren een hele dag lopen worstelen met code, heb ik gelukkig vandaag een idee hoe ik verder kan. Echter wordt het wel noodzakelijk dat ik tijd ga steken in het opstellen van de 'first draft' versie van mijn scriptie. Dit zal deze aankomende drie dagen de prioriteit hebben.

Ik begin door te krijgen dat ik erg achter loop op mijn planning - zeker als er meer dagen komen waarop ik niet de progressie weet te boeken die ik zoek. Het lijkt mij verstandig als ik hierover Chrysa en Florian (de algemene project begeleiders) informeer. Er is wellicht nog geen reden tot paniek, maar ik moet toegeven dat ik de stress toch wel erg begin te voelen.

Het lijkt mij prettig als we er op Zoom verder over praten, hieronder een link: https://us05web.zoom.us/j/88166011916?pwd=NDhaLzJmakxFYis3akRZdXdrYS9tQT09

Ik ben de hele dag beschikbaar.

maartenmarx commented 2 years ago

Hi @DaanKuyper , dit klinkt allemaal niet best. Ik probeerde net in de zoom te komen, maar je bent er niet. Kan je me effe bellen 0640016120

Wat hierboven staat is niet bemouedigend, en ook geen resultaat. Je hebt ook niks gedaan met alle pdf text xml's die ik gemaakt heb.

DaanKuyper / DocumentSplitting

(WIP) update 1/12/2021 #10