DaanKuyper / DocumentSplitting

Afstudeer Thesis
0 stars 0 forks source link

gaaf idee 2: font matrices #8

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

hi He @DaanKuyper,

Naast die font vectors, die denk ik al heel veel kunnen doen, kan je ook denken aan een matrix van pixels, of coordinaten, waarin je probeert te coderen dat er "aan het begin (eerste pagina) van een document een heel ander beeld is dan op andere paginas", namelijk veel wit, opeens grote letters of bold of een heel ander lettertype (briefhoofd).

idem natuurlijk voor laatste pagina.

Je zou dus 2 classifiers kunnen maken die eerste en laatste pagina vaneen document proberen te schatten, en die ook inzetten.

Misschien eerst met wat hand-gemaakte regels, en allicht kan je daarna iets trainen.

Ik stel voor dat we deze 2 technieken echt goed uitwerken (naast een mooi overzicht van 'wobspace'), en dan heb je een heel mooie scriptie waarop je zo 2 vrienden kan zetten die er in april mee verder gaan, en de laatste procentpuntjes verbetering gaan maken. Ja, dit is echt een 80-20 probleem, dus dat is mazzel voor jou, dfat je nu al zoveel kunt bereiken.

Succes , en ik hoor graag van je!! maarten

DaanKuyper commented 2 years ago

Beste @maartenmarx ,

Allereerst ontzettend bedankt voor de tijd en het enthousiasme dat u in mijn scriptie steekt, dit slaat zeker over op mij!

Ik moet toegeven dat uw laatste twee voorstellen voor het bepalen van pagina's mij technisch nog iets te boven gaan.. Dat wil zeggen; in grote lijnen kan ik zeker bevatten waar u naar toe wilt, maar de implementatie ligt mij niet voor de hand. Ik zal mij moeten verdiepen!

Ik ben vandaag echter bezig voor werk, dus ik zal vanaf morgen de week besteden aan het uitproberen, testen en implementeren. Bent u deze week beschikbaar via Zoom om mijn progressie te bespreken? Liefst voor donderdag, zodat ik nog tijd heb om bij te sturen waar nodig. Ik moet tenslotte vrijdag een eerste draft van mijn scriptie inleveren, dus het lijkt mij noodzakelijk dat ik tegen die tijd de gewenste implementatie volledig begrijp en kan verwoorden - ookal is deze dan nog niet volledig uitgevoerd.

maartenmarx commented 2 years ago

Hi @DaanKuyper , prima joh. Bel me wanneer je wilt zoomen. Ik kan bijvoorbeeld goed dinsdagavond (zit dan de hele avond in de trein), maar ook woensdag overdag.

Zorg dat je nu eerst een goed en betrouwbaar overzicht hebt van al je data, en dat je dingen die veel tijd kosten om te draaien, allemaal draait en opslaat, zodat je dat niet nogmaals hoeft te doen.

Die vectoren snap je toch wel? Jij hebt toch beeldbewerking gehad van Rein? Dit is hetzelfde, maar dan veel makkelijker.

En k-means clusteren snap je ook in een uurtje. Met vectoren doe je dat op de centroids.

OK, komt allemaal wel goed, maar nu echt >40 uur per week scriptie!!!

DaanKuyper commented 2 years ago

Beste @maartenmarx,

Woensdagmiddag lijkt mij ideaal. Ik zal zorgen dat ik tests heb uitgevoerd en wat resultaten heb om te laten zien! Ik ben overigens de retst van de week op het science park te vinden. Ik weet niet of u daar een kantoor / werkplek heeft, maar anders zou ik ook die kant op kunnen komen - als u Zoomen net zo zat bent als ik.

maartenmarx commented 2 years ago

Hi @DaanKuyper , OK fijn. nee, ik ben er alleen vandaag. Kan je woensdagochtend een issue aanmaken met wat links naar resultaten? Zodat ik wat kan bekijken? succes maarten