DaanKuyper / DocumentSplitting

Afstudeer Thesis
0 stars 0 forks source link

gaaf idee #6

Open maartenmarx opened 2 years ago

maartenmarx commented 2 years ago

He @DaanKuyper ,

Ik kreeg een gaaf idee en heb wat uitgewerkt in https://github.com/DaanKuyper/DocumentSplitting/blob/master/ProbeerselsMarx/FontVectorPerPaginaEnDanMaarClusteren.ipynb

Je kan dat toch wel runnen he? In iedre geval kan je hopelijk zien wat ik deed, en dat even uitwerken.

Dat clusteren zou ik dan met dbscan doen, of hierarchish clusteren (zit allebei in scikit learn). Het is natuurlijk even klooien hoe je de optimale k vindt.

Je kunt natuurlijk ook gewoon beginnen met k-means, plus je additionele eis op de clusters, en dan maar wat proberen.

Punt is dat "maar wat proberen (dus alle k's proberen en de beste pakken), heel duur wordt met een pdf van 1500 paginas.... Dus dat is een gave uitdaging voor jou, jongen!

Zet em op, en maak nu wat meer vaart, ajb!

Lukt je dit in een dag uit te werken? Jawel toch? Ik ben nu al die pdftohtmls v oor je aan het runnen. Ze staan in de gedeelde surfdrive folder.

Misschien zijn dit klein genoeg voor op github?

Succes!!