DaanKuyper / DocumentSplitting

Afstudeer Thesis
0 stars 0 forks source link

woordjes tellen #11

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

Hi @DaanKuyper ,

Ik lig ziek thuis in bed, en dacht ik ga maar wat woordjes en dingen tellen. Ziet er best goed uit, je spullen, maar zo'n dikke 8K van de 32K paginas bevatten geen 1 woord. Maar tessaract haalt dat er prachtig uit lijkt het.

Zie het woordjestel notebook in mijn probeersels, en het OCR notebookje.

Als je liever met excel werkt kan je zo een excel maken uit dat dataframe in woordjestel.

Ja, ik zie de zoekmachine al voor. Gewoon per pagina. Dan heb je al een mooie baseline. In Python heb ik dat nooit gedaan, maar ik denk dat me dat in 1 dag moet lukken in elasticsearch.

Maar goed, dan moet het document splitsen nog beginnen natuurlijk. Maar je hebt al heel wat.