Ik wilde eens kijken naar het histogram van het aantal paginas, omdat ik gisteren ook zo'n joekel van >4K paginas tegenkwam, maar de tellingen in jouw overzicht komen niet overeen met als ik tel via pdftohtml.
Zie ProbeerselsMarx/EDA_aantal_paginas_per_pdf.ipynb
Kan jij eens uitvogelen hoe het echt zit? En dit oplossen?
Ook zou ik graag een mooie telling van het aantal woorden per pagina zien: voor en na tessarect eroverheen.
Hi @DaanKuyper ,
Ik wilde eens kijken naar het histogram van het aantal paginas, omdat ik gisteren ook zo'n joekel van >4K paginas tegenkwam, maar de tellingen in jouw overzicht komen niet overeen met als ik tel via pdftohtml. Zie
ProbeerselsMarx/EDA_aantal_paginas_per_pdf.ipynb
Kan jij eens uitvogelen hoe het echt zit? En dit oplossen?
Ook zou ik graag een mooie telling van het aantal woorden per pagina zien: voor en na tessarect eroverheen.
Ik om op 32K paginas in totaal, met dit commando
maartens-MBP-5:CovidWOBPDFs admin$ grep '/page>' *.xml|wc 32576
Of doe ik daar wat fout?
En nu stop ik hoor! ;-) Ik zit tot de lunch in de trein, dus heb alle tijd om wat te spelen met dit gave spul dat je hebt opgehaald!
Echt te gek hoor. groet maarten