'A safe PDF redaction tool' Thesis project in which I aim to create a tool which leaves no traces of the redacted text and keeps the other text intact.
Deze week was ik langer bezig met het opzetten van de code and het framework dan verwacht en heb daardoor niet alles op het lijstje van vorige week af kunnen maken. Zoals vaker in de programmeer wereld en bij software-ontwikkeling: het kost meer tijd dan verwacht en loopt uit.
Het volgende heb ik bereikt deze week:
Ik heb een document 'reader', 'interpreter' en 'manipulator' gemaakt. De 'reader' wordt gebruikt om een document uit te lezen en daar de nodige informatie uit te halen in rauwe vorm. Het gaat hier bijvoorbeeld om de tekst, informatie over het font (zodat de tekst eventueel vertaald kan worden), positie data en al het andere wat ik zou willen. 'De interpreter' gebruikt deze uitgelezen informatie en zet het in begrijpbare datastructuren zodat de 'manipulator' makkelijk met de informatie aanpassingen kan doen in het document.
Het lukt om tekst uit het document te verwijderen! Voor nu kan dit door de 'left-lower point' van een stukje tekst op te geven. Aangezien ik nog geen methode heb geïmplementeerd om daadwerkelijk zelf tekst te selecteren, doe ik het voor nu nog handmatig.
Ik heb een begin gemaakt aan het verwijderen van witte ruimte na het verwijderen van tekst. Ik schuif de overige tekst op een lijn naar links om witte gaten op te vullen. Het werkt bijna, maar het is nog even puzzelen met zogenoemde "end-of-word-characters" en de positie bepalen van de overgebleven woorden.
Ik heb vandaag nog (vrijdag) om een mail te sturen naar Maxwell voor zijn tool, een experiment te ontwerpen en een stuk te schrijven dus dat moet nog goedkomen. Dat stelt mij in staat om volgende week ook een (hopelijk) definitieve testmethode op te zetten.
UPDATE:
Inmiddels mail gestuurd met een verzoek tot Maxwell zijn tool. Heb u in de CC gezet. Daarnaast heb ik het skelet van mijn scriptie uitgebreid.
Wat heeft niet gewerkt?
Ik heb helaas niet alles kunnen bewerkstelligen wat ik vorige week op de planning van deze week had gezet. Het bleek meer tijd te kosten dan gedacht. Echter heb ik nu wel een goede basis om op door te werken dus ik verwacht meer progressie komende week.
Ik heb helaas nog niet kunnen testen op meerdere documenten en fonts. Bovendien heb ik nog geen methode verzonnen om een stukje tekst in het hele document te zoeken. Ik heb wel al een goed idee hoe ik dat zou kunnen doen, maar deze methode hangt ook af van de manier waarop men tekst gaat selecteren. Echter is deze methode wel te overzien en verwacht ik een redelijke verloop van dit proces als het zover is.
Komende week
Ik heb gezien dat sommige dingen meer tijd kosten dan verwacht en zal daarom mijn taken anders opdelen.
Dit moet af:
Positionele data aanpassen en witte ruimte kunnen opvullen
Tekst invoegen (voor nu placeholder tekst) & witte ruimte kunnen toevoegen voor, maar voornamelijk na de tekst.
Meerdere (soorten) word documenten uitproberen in de huidige staat van mijn tool
Dit mag af:
Meerdere soorten word documenten afhandelen (op basis van de test)
Test methode opzetten
Metadata verwijderen
Vragen
Al gesteld in de agenda voor onze afspraak vandaag.
Hoi @maartenmarx ! Hierbij de wekelijkse update.
Prestaties
Deze week was ik langer bezig met het opzetten van de code and het framework dan verwacht en heb daardoor niet alles op het lijstje van vorige week af kunnen maken. Zoals vaker in de programmeer wereld en bij software-ontwikkeling: het kost meer tijd dan verwacht en loopt uit.
Het volgende heb ik bereikt deze week:
De code tot dusver.
Ik heb vandaag nog (vrijdag) om een mail te sturen naar Maxwell voor zijn tool, een experiment te ontwerpen en een stuk te schrijven dus dat moet nog goedkomen. Dat stelt mij in staat om volgende week ook een (hopelijk) definitieve testmethode op te zetten.
UPDATE:
Inmiddels mail gestuurd met een verzoek tot Maxwell zijn tool. Heb u in de CC gezet. Daarnaast heb ik het skelet van mijn scriptie uitgebreid.
Wat heeft niet gewerkt?
Ik heb helaas niet alles kunnen bewerkstelligen wat ik vorige week op de planning van deze week had gezet. Het bleek meer tijd te kosten dan gedacht. Echter heb ik nu wel een goede basis om op door te werken dus ik verwacht meer progressie komende week.
Ik heb helaas nog niet kunnen testen op meerdere documenten en fonts. Bovendien heb ik nog geen methode verzonnen om een stukje tekst in het hele document te zoeken. Ik heb wel al een goed idee hoe ik dat zou kunnen doen, maar deze methode hangt ook af van de manier waarop men tekst gaat selecteren. Echter is deze methode wel te overzien en verwacht ik een redelijke verloop van dit proces als het zover is.
Komende week
Ik heb gezien dat sommige dingen meer tijd kosten dan verwacht en zal daarom mijn taken anders opdelen.
Dit moet af:
Dit mag af:
Vragen
Al gesteld in de agenda voor onze afspraak vandaag.