update 2/12/2021 - Githubissues

achieved :

Het programma is uitgebreid om - in plaats van iText 7 of PdfSharp Core - Xpdf te gebruiken. Dit betekent dat het gebruik van iText 7 ofwel PdfSharp Core voor de tot dusver behaalde resultaten, volledig een verspilling van tijd is geweest.

Xpdf levert onderandere functies zoals pdftohtml, pdftotext, pdfinfo. Deze commands zijn standaard onderdeel van de meeste linux besturingssystemen, maar zijn ook als losse executables te downloaden voor windows. Ik heb nu geimplementeerd dat dit programma deze .exe bestanden aanroept en hiermee de benodigde informatie ophaalt. Hiermee zijn de errors waar iText en PdfSharp Core tegenaan liep vermeden.

Ik heb wederom een csv overview report bestand gemaakt en deze ingelezen in excel:

iText 7 Overview Report

Ook kan mijn programma nu voor alle PDFs het PpdfToHtml command uitvoeren en de resultaten hiervan lokaal opslaan. Tijdens het uitvoeren van deze code op alle PDFs kwam ik er achter dat als een PDF een bepaalde encryption bevat, het PdfToHtml process niet uitgevoerd kan worden. Na online zoeken lijken hier wel oplossingen voor gevonden te zijn, maar ik heb de juiste nog niet gevonden..

Afsluitend heb ik progressie geboekt in het gebruik van Tesseract voor het uitlezen van de .png's die voortkomen uit de PdfToHtml functie. Ik wilde gebruik maken van PdfToText om de resultaten hiervan te vergelijken met die van Tesseract - alleen aangezien deze functie enkel een string levert en sommige PDF's bestaan uit duizenden pagina's, lijkt het mij beter om per pagina te werken. Dit betekent dat ik een Html/Xml parser zal gebruiken om de vergelijking te maken tussen tekst elementen in de PDF en de resultaten van Tesseract. Hier zal ik morgen mee verder gaan.

DaanKuyper / DocumentSplitting

update 2/12/2021 #12