Open jtothehoenderdos opened 4 years ago
Hoi @maartenmarx ,
Zoals gevraagd/verwacht had ik al een issue aangemaakt, maar heb je zelf op de mail gereageerd. Hier jou suggesties, met daarbij mijn opmerkingen:
Pas op je schrijfstijl. Er staan nog best veel grammaticale fouten en ook typos in. -> Ik ga de tekst nog een keer door
Je RQ past niet geheel bij ej introductie. Het lijkt alsof je de hoogte van jeugdzorg wilt voorspellen. Daar past dan ook niet een F1 maat maar eerder een RMSE bij. -> RMSE is helaas niet te meten, zie thesis voor uitleg waarom niet, ik heb subRQ iets aangepast, beter?
Probeer voor dat je de RQs formuleert echt precies te zeggen wat je gaat voorspellen en op basis van wat.
Pas op met citeren zonder dat duidelijk aan te geven. Bijvoorbeeld de zin While confir- mation through longitudinal research is required, this study suggests that modification of physical and social neighbor- hood characteristics could represent an effective intervention... uit [14]. -> "aangepast"
Ik snap je stukje over random undersampling niet. Je begint met te zeggen dat "kleine klassen" een probleem zijn omdat je dan niet goed kan leren. Goed punt! Maar dan ga je vervolgens alle klassen klein maken. Ik neem vast een gekke denkrichting hier. Maar probeer me de juiste kant op te sturen. -> Zin aangepast om te kijken of je nu wel in de goede richting wordt geleidt
Wat betekent dit ". 2018 and 2019 are the only two years fully available in the data set. "? -> In de tekst aangepast, om het duidelijker te maken
Figuur 3 is wat lastig te begrijpen zonder waardes op de x-as en zonder caption. Het lijkt ook dat dit een staaf diagram moet zijn, omdat de variabele op de x-as categoriaal is. -> Ik heb de x-as express leeggelaten omdat het anders niet leesbaar wordt/is. In de staat uitleg om het figuur zo leesbaar te laten.
Is dit ook niet hetzelfde als figuur 4? -> Komt in essensie op hetzelfde neer -> het laten zien van de imbalanced data set, echter is figuur 3 meer om te laten zien hoe de threshold zich weerhoudt tot alle data, en figuur 4 om meer een overzicht op een net andere manier te geven hoe deze set er dan uitziet.
Je schrijft In the youth care dataset, which is needed for the training set, there is a categorical value available. This is sex variable in the youth care dataset. Maar het is echt andersom hoor. Er is maar 1 variabele in die set op niet categorical niveau en dat is het geld bedrag. Best verwarrend dus. -> dit snap ik niet helemaal wat je hier mee bedoelt. Tekst iets anders gemaakt, om duidelijk te maken wat ik bedoel met cat variable.
Ik ben nu midden in je experimenten maar ik begrijp nog steeds niet wat de y-variabele is. Het zou echt fiujn zijn als je dit heel helder bescjrijft. -> zin toegevoegd om deze vraag expclicite te beantwoorden
Sterker nog ik weet niet eens wat een sample is. Is dat een kind in een jaar? Is dat een buurt? -> zin toegevoegd om deze vraag expclicite te beantwoorden
Geef graag behalve het gemiddelde P.R en F1 ook de standaard deviatie over de folds. En niet alleen de gemiddeldes over alle klassen, maar doe dit ook per klasse. Ik ben erg bang dat het enorm varieert. -> Wat bedoel je hier precies mee?
Ik snap niet waarom je geen logistic regression doet. Dit is toch het meest simpele model hiervoor? En het goedkoopst. Dan kan je in ieder geval laten zien dat je deze sterke baseline verbetert. -> Hiervoor heb ik niet gekozen in mijn thesis desgin, vandaar dat ik dat nu niet gedaan heb. Er zijn wel meer algorithms wat ik graag zou willen testen op deze set om te kijken of dit een goed voorspellende waarde geeft, echter heb ik maar 3 maanden voor deze thesis, en moet ik ergesn keuzes maken
Bedankt Jop! Succes met alle verbeteringen. Voor vraag 12 en mijn bedoeling: kijk eens naar de swaardes van je 20 folds. Dan zie j of mijn angst terecht was of niet.
Voor 13, ik zou zo'n antwoord niet op je verdediging geven, want dan vraagt ie waarom je het niet in je design hebt opgenomen.
Als je het fijn vindt dat ik nogmaals naar je zinnen kijk, graag je verbeteringen in het document, of links naar de diff in de commit, zodat ik het snel kan vinden.
Beste @maartenmarx
Ik heb naar mijn inziens hier ook al op de antwoorden geantwoord. Wellicht toch hanidg om te bellen?
Jop
Dag alleen,
Zoals beloofd zou ik vrijdag jullie mijn thesis verslag inleveren, maar ben ik verzuimd dit te doen.
Bij deze dus mijn thesis tot nu toe.
Deze week is het doel om de rest van het verslag af te maken.
Uiteraard hoor ik graag als jullie hier anders over nadenken en hoor ik graag jullie mening over het verslag tot nu toe.
Fijne werkweek,
Jop Master_Thesis (14).pdf