Closed MBrouns closed 10 years ago
Overigens, als we machine learning gaan gebruiken voor het raten van sentences moeten we er rekening mee houden dat we moeten weten in welke taal het document is. Ik denk dat we voor prototype wel kunnen zeggen dat we alleen engels ondersteunen maar we moeten het wel in de prestentatie ofzo noemen
Denk dat het niet handig is om het bestand crowdsum en al je eclipse settings files mee te committen ;)
En je moet denk ik eerst even rebasen naar master, er zit nu ook een best wel oude commit in
Ja ik zag inderdaad dat ik een beetje screwed up had maar had nog geen tijd om te verbeteren.
Rebased.
Laten we verder gaan in #17
Ik heb een kleine testcase gemaakt met de class4j vectorclassifier. Het lijkt er echter op dat die classifier niet getraind kan worden op meerdere sentences wat het dus compleet nutteloos maakt. Ik had eerder al hun bayesian classifier geprobeerd maar die returned als matching rating eigenlijk alleen 0.99 of 0.01 dus dat is ook niet heel nuttig.
Ik denk dat we van classifier4j moeten afstappen en ofwel stanfordNLP classifier ofwel MALLET moeten gebruiken.