Implement Random Forests using Python

florianock commented 8 years ago

Implement Random Forests using Python on Titanic Dataset

florianock commented 8 years ago

ik zie dat je al wat hebt gedaan. hoe scoort je oplossing nu? En wat moet er nog gebeuren om het te verbeteren?

florianock commented 8 years ago

Hierin kunnen we issues (dingen die moeten gebeuren) en bugs bijhouden.

TinkaRombouts commented 8 years ago

Bug: Importance of the features versie 2. Die zou de verschillende waarden van een feature moeten samenvoegen, maar dat gebeurt niet. Niet echt belangrijk.

TinkaRombouts commented 8 years ago

De oplossing scoort 0.874.

Om het te verbeteren kunnen we de input/features verbeteren (feature engineering). Misschien is er een betere score mogelijk met (relatief) ongebruikte features als Name/Ticket/PassengerId/Cabin, misschien met extra domeinkennis, andere representatie, andere behandeling van missing values..

Zelf heb ik vooral behoefte aan nog meer begrip van wat er nou precies gebeurt:

hoe wordt de score van 0.874 gemeten?
gebruiken we nu cross validation? is er een verzameling observaties apart gehouden als test set om de score te berekenen?
inzicht in true positives, false negatives, true negatives, en false positives
hoe wordt de importance bepaald? wat doen we met deze kennis? onbelangrijke features eruithalen om de snelheid te verbeteren? of juist iets met de belangrijke features?
wat gebeurt er als je varieert met random_state of oob-score?
is het gegenereerde model ook in te zien? zou zo'n model uit te leggen zijn aan degene die op de informatie zit te wachten?

florianock commented 8 years ago

Ik moet zeggen dat een score van 0.874 toch best wel goed is. De baserate, als je gewoon iedereen als dood voorspelt, is 0,62 op de training set en jouw random forest heeft een reducering van de error tov de baserate van 67%. Je hebt meerdere methoden om de accuraatheid van je model uit te drukken, zoals Lift, Accuracy, Precision, Recall, en ROC-curve. Laten we die ook erbij pakken.

Over je punt om het beter te begrijpen, R heeft ook gewoon een functie om een random forests model te trainen en te laten voorspellen. Maar misschien kunnen we het proberen in Octave te bouwen, om beter te snappen wat het nou doet? Iets meer lowlevel maar met dezelfde mogelijkheden.

Voor de rest is R wel handig om inzicht te krijgen in de verschillende features en om daarvan grafieken te plotten, zoals ook importance of features. Ben ook benieuwd hoe die wordt bepaald. Ik heb al een paar dingen eruit gehaald, zoals titel, achternaam en deck. Heb jij nog ideeën? Kunnen we nog iets met de tekstcomponent van ticket oid?

Ik las op kaggle dat ze nu een test dataset erbij hebben gegeven, waarmee we kunnen testen, maar ze hebben ook nog een private test dataset achter de hand gehouden, waarmee ze als de competitie afgelopen is, over een paar maanden, de definitieve evaluatie van de modellen doen. Mensen die nu dus 100% scoren op de leaderboard zullen dan waarschijnlijk door de mand vallen.

TinkaRombouts / Titanic-Forests

Implement Random Forests using Python #1