DaanKuyper / DocumentSplitting

Afstudeer Thesis
0 stars 0 forks source link

OCR #7

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

Hi @DaanKuyper ,

Ik heb nu 1000 pngs die uit pdftohtml komen geOCRed met tesseract. Geen idee heoveel verschil dat is met het oorspronkelijke. Zie https://github.com/DaanKuyper/DocumentSplitting/blob/master/ProbeerselsMarx/OCRsample1000bladzijden.csv en https://github.com/DaanKuyper/DocumentSplitting/blob/master/ProbeerselsMarx/OCR_tesseract.ipynb voor de code.

Maar dat kost allemaal heel veel tijd.

Dus ik stel echt voor dat je dat nu ook VOOR ALLES gaat doen, met eerst even een dag testen wat de beste config instelling voor tesseract is, en dan runnen met die handel.

De surfdrive folder loopt nu lekker vol met .xmls en vooral .pngs.

Ik zag er al een pdf van > 4K paginas tuissen zitten! Dit geeft alleen maar aan hoe belabgrijk jouw werk is!

Het is belangrijk dat je

  1. code hebt die je hel;e riedel nog eens kunt doen
  2. maar net zo goed, heel mooie output plus tussenresultaten hebt
    • zowel voor mensen die nog verder willen klooien aan het splitten
    • als voor de journalisten die hier een zopekmachine op willen zetten

Omdat alles heel veel tijd kost, raad ik je toch aan dingen op een oude harde schijf of usb stick te bewaren als je geen ruimte hebt. Zo heel veel is het nou ook weer niet. minder dan 10 speelfilms toch?

Bewaar dus zoveel mogelijk tussenresulktaten, en deel ze ook.

Succes!!

Ik zie uit naar je evaluaties!