Dat gaat de goede kant op zeg!

maartenmarx commented 3 years ago

Hi @mckeuken @jtothehoenderdos ,

Ik heb weer eens naar de scriptie gekeken en begin weer wat meer te begrijpen. Fijn dat het de goede kant op gaat. Voor we verder kunnen, echt eerst nog helder uitleg op mijn eerdere vragen, en ajb geef aandachta an de volgende punten.

Het is me nog steeds niet duidelijk wat de klasses nou zijn die je voorspelt: segment B, segment C, en dan met of zonder jaar erbij. Of allebei? Nee, want in figuur 6 heb je maar zo'n 35 klassen. Waarom blijft dit toch allemaal zo geheimzinnig?
De aantallen lijken echt weer niet te kloppen, en zolang je dit niet helemaal goed krijgt, kan ik niet akkoord gaan. Ik geef gewoon wat random observaties:
- Wat is klasse 8 in figuur 3 in Tabel 4?
- Ik wil de jaar totalen in tabellen 2,3,4,5,6, en wil zien dat ze gelijk zijn, en als niet een helder euitleg daarover in de caption
- in figuur 4 krijgt elke klasse 65 items. Maar in eerdere tabellen zijn er heel veel klasses met minder dan 65 items. Hoe doe je dat met random undersampling?
Het blijft me onduidelijk wat het verband is tussen tabel 6 en tabellen 4 en 5. Als die totalen niet hetzelfde zijn, heb ik niks aan tabel 4 en 5, en weet ik dus nog niet hoe lastig het probleem is. Ik heb dit al eerder aangegeven.

voorstel

Met zo'n lastige dataset met heel veel kleine klasses is het lastig werken. Je geeft vrijwel niks aan over je klasses behalve geheimzinnige codes. Wat je typisch doet in zo'n geval is hierarchisch clusteren, zodat je minder en grotere klassen krijgt. Kan datbij jou dan niet in bijvoobrrld 8 klassen B1-B8? Die zijn dan allemaal te overzien, je kan per klasse P,R, F1 uitprinten, en een helder CM maken.

Ik denk dat dit veel meer inzicht gaat geven dan jouw undersampling, waar de gemeente eigenlijk niets aan heeft. Dus ik zou dat eens draaien. Dit is echt niet alleen een aanrader, maar wat mij betreft een manier om toch nog een heldere lijn in de scriptie te krijgen, en hem verdedigbaar te maken. Graag lees ik dan ook wat B1-B8 betekent.

Features Importance

Hier laat je zien dat de neighborhood characteristics niks doen (in ieder geval als je die andere wel hebt). Test dit door het model nogmaals te draaien maar dan met alleen deze 4 variabelen in Fig 7. Dan kan je daar een helder antwoord op geven, als de F1 scores niet significant zakken.

Het is me niet helemaal duidelijk wat voor soort variabele IVEOA" nou is: is dat een buurt variabele? Of iets wat aan een persoon hangt?

Bedrag

En eigenlijk is het bedrag toch een variabele die je probeert te voorspellen? Geen verklarende variabele? Ik zou dit er maar uithalen, dit is heel erg vreemd. Als je je RQ vraag leest predicting the demand for the specialist youth care in Amsterdam? dacht ik namelijk meteen dat je het bedrag wilde voorspellen. Gek he? Maar misschien ben ik te rechts economisch ingesteld, en stel vraag gewlijk aan een bedrag.

jtothehoenderdos commented 3 years ago

Beste @maartenmarx ,

Dank voor je feedback en goed om te horen dat je het de goede kant op vindt gaan. Ik heb hieronder geprobeerd zo goed mogelijk aan je vragen tegemoet te komen (en uiteraard ook de gevraagde aanpassingen gedaan). Samen met de eerdere antwoorden en aanpassingen, ga ik er daarmee vanuit dat de scriptie hiermee - na de correspondentie en aanpassingen van afgelopen anderhalve maand (zie ook link onder mail) - afgerond is. En dat deze nu ook voor jou voldoende verdedigbaar is.

Mocht dit niet het geval zijn, dan lijkt het me goed om samen met Daniëlle, de opleidingsdirecteur en jou (en evt. Max, maar die krijgt binnenkort een kind) begin januari een skype gesprek in te plannen. Maar ik hoop natuurlijk dat het hiermee afgerond is.

Vriendelijke groet, en dank voor alle tijd en moeite die je hierin hebt gestopt,

Jop Hoenderdos

Mailwisselingen: https://github.com/jtothehoenderdos/MasterThesis/issues

Hierbij de antwoorden op je vragen:

1: Het is me nog steeds niet duidelijk wat de klasses nou zijn die je voorspelt: segment B, segment C, en dan met of zonder jaar erbij. Of allebei? Nee, want in figuur 6 heb je maar zo'n 35 klassen. Waarom blijft dit toch allemaal zo geheimzinnig?

Een deel van de vraag stond al in de abstract, maar heb ik geprobeerd wat te verduidelijken (zie ook hieronder). Daarnaast heb ik - net zoals nu in de Abstract staat - onder figuur 3 ook aangegeven wat er precies voorspeld wordt (alle wijkeigenschappen van de segmenten op basis van data van beide jaren). Onder figuur 6 heb ik uitgelegd waarom er 37 observaties zijn (vanwege de 95% threshold en het gebelanceerd maken van de data). Zie beide aanpassingen ook hieronder.

[image]https://user-images.githubusercontent.com/29228718/102777349-b5d63c80-4390-11eb-8a27-519c0f37ce07.png [image]https://user-images.githubusercontent.com/29228718/102777167-5841f000-4390-11eb-928b-7d8710c88362.png [image]https://user-images.githubusercontent.com/29228718/102777785-955ab200-4391-11eb-89e8-483efcba5691.png

Wat is klasse 8 in figuur 3 in Tabel 4? Ik heb de tekst iets aangepast in figuur 3 om duidelijk te maken wat klasse 8 is. Hiermee hoop ik ook duidelijk te hebben gemaakt hoe de tabel en het figuur met elkaar relateren. [image]https://user-images.githubusercontent.com/29228718/102778088-30538c00-4392-11eb-8a07-56abbe079195.png
Ik wil de jaar totalen in tabellen 2,3,4,5,6, en wil zien dat ze gelijk zijn, en als niet een heldere uitleg daarover in de caption

Heb de vragen als volgt verwerkt, waarbij ik onder elke tabel de jaar aantallen heb toegevoegd. De aantallen jaren tussen de tabellen kunnen verschillen. Dit komt doordat er alleen observaties zijn opgenomen waar minimaal n=10, vanwege privacy redenen vanuit de gemeente (anders is theoretisch mogelijk om de persoon te achterhalen). Deze uitleg is ook opgenomen in de tekst, en heb ik voor de volledigheid ook opgenomen in de titel van de tabel (zie hieronder).

[image]https://user-images.githubusercontent.com/29228718/102784302-7dd4f680-439c-11eb-9f2f-be1872f52559.png

[image]https://user-images.githubusercontent.com/29228718/102781778-888d8c80-4398-11eb-9462-f72c525f9f25.png [image]https://user-images.githubusercontent.com/29228718/102781834-9c38f300-4398-11eb-9402-92c11213068a.png [image]https://user-images.githubusercontent.com/29228718/102781875-ac50d280-4398-11eb-8d5c-c7a7f33e3c51.png

in figuur 4 krijgt elke klasse 65 items. Maar in eerdere tabellen zijn er heel veel klasses met minder dan 65 items. Hoe doe je dat met random undersampling?

Figuur 4: [image]https://user-images.githubusercontent.com/29228718/102782033-f46ff500-4398-11eb-9770-327b0feefb66.png

Figuur 4 is het resultaat van random undersampling (dit staat ook in de titel). De final data set bestaat uit 37 verschillende klasses (zie de x-as). 1 van deze 37 klasses, heeft intotaal 65 items. Hierdoor krijgen alle andere samples ook 65 items. Door dit te doen, krijgen we een balanced dataset. De uitleg hiervan staat in the thesis onder het kopje "random Undersample": [image]https://user-images.githubusercontent.com/29228718/102782451-a90a1680-4399-11eb-9edc-151af5480d62.png

Het blijft me onduidelijk wat het verband is tussen tabel 6 en tabellen 4 en 5. Als die totalen niet hetzelfde zijn, heb ik niks aan tabel 4 en 5, en weet ik dus nog niet hoe lastig het probleem is. Ik heb dit al eerder aangegeven.

In je vorige mail, gaf je aan dat je een overzicht wou hebben van de y-variabele. Dit is gedaan door middel van tabel 4 en 5 te maken. Hoe deze tabellen gemaakt, kan in de code worden gevonden: [image]https://user-images.githubusercontent.com/29228718/102782911-6b59bd80-439a-11eb-8edf-9d2ac63b446d.png

Door de totalen te hebben toegevoed van de vorige vragen, is het nu ook duidelijker hoe de tabelen met elkaar relateren.

Van: maartenmarx notifications@github.com Verzonden: donderdag 17 december 2020 15:32 Aan: jtothehoenderdos/MasterThesis MasterThesis@noreply.github.com CC: jtothehoenderdos jophoenderdos@hotmail.com; Mention mention@noreply.github.com Onderwerp: [jtothehoenderdos/MasterThesis] Dat gaat de goede kant op zeg! (#11)

Hi @mckeukenhttps://github.com/mckeuken @jtothehoenderdoshttps://github.com/jtothehoenderdos ,

Ik heb weer eens naar de scriptie gekeken en begin weer wat meer te begrijpen. Fijn dat het de goede kant op gaat. Voor we verder kunnen, echt eerst nog helder uitleg op mijn eerdere vragen, en ajb geef aandachta an de volgende punten.

Het is me nog steeds niet duidelijk wat de klasses nou zijn die je voorspelt: segment B, segment C, en dan met of zonder jaar erbij. Of allebei? Nee, want in figuur 6 heb je maar zo'n 35 klassen. Waarom blijft dit toch allemaal zo geheimzinnig?
De aantallen lijken echt weer niet te kloppen, en zolang je dit niet helemaal goed krijgt, kan ik niet akkoord gaan. Ik geef gewoon wat random observaties:
- Wat is klasse 8 in figuur 3 in Tabel 4?
- Ik wil de jaar totalen in tabellen 2,3,4,5,6, en wil zien dat ze gelijk zijn, en als niet een helder euitleg daarover in de caption
- in figuur 4 krijgt elke klasse 65 items. Maar in eerdere tabellen zijn er heel veel klasses met minder dan 65 items. Hoe doe je dat met random undersampling?
Het blijft me onduidelijk wat het verband is tussen tabel 6 en tabellen 4 en 5. Als die totalen niet hetzelfde zijn, heb ik niks aan tabel 4 en 5, en weet ik dus nog niet hoe lastig het probleem is. Ik heb dit al eerder aangegeven.

voorstel

Met zo'n lastige dataset met heel veel kleine klasses is het lastig werken. Je geeft vrijwel niks aan over je klasses behalve geheimzinnige codes. Wat je typisch doet in zo'n geval is hierarchisch clusteren, zodat je minder en grotere klassen krijgt. Kan datbij jou dan niet in bijvoobrrld 8 klassen B1-B8? Die zijn dan allemaal te overzien, je kan per klasse P,R, F1 uitprinten, en een helder CM maken.

Ik denk dat dit veel meer inzicht gaat geven dan jouw undersampling, waar de gemeente eigenlijk niets aan heeft. Dus ik zou dat eens draaien. Dit is echt niet alleen een aanrader, maar wat mij betreft een manier om toch nog een heldere lijn in de scriptie te krijgen, en hem verdedigbaar te maken. Graag lees ik dan ook wat B1-B8 betekent.

Features Importance

Hier laat je zien dat de neighborhood characteristics niks doen (in ieder geval als je die andere wel hebt). Test dit door het model nogmaals te draaien maar dan met alleen deze 4 variabelen in Fig 7. Dan kan je daar een helder antwoord op geven, als de F1 scores niet significant zakken.

Het is me niet helemaal duidelijk wat voor soort variabele IVEOA" nou is: is dat een buurt variabele? Of iets wat aan een persoon hangt?

Bedrag

En eigenlijk is het bedrag toch een variabele die je probeert te voorspellen? Geen verklarende variabele? Ik zou dit er maar uithalen, dit is heel erg vreemd. Als je je RQ vraag leest predicting the demand for the specialist youth care in Amsterdam? dacht ik namelijk meteen dat je het bedrag wilde voorspellen. Gek he? Maar misschien ben ik te rechts economisch ingesteld, en stel vraag gewlijk aan een bedrag.

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHubhttps://github.com/jtothehoenderdos/MasterThesis/issues/11, or unsubscribehttps://github.com/notifications/unsubscribe-auth/AG675LUGLG36AADZ2QIN2YTSVII6RANCNFSM4U7YABWA.

jtothehoenderdos commented 3 years ago

Beste @maartenmarx ,

Dank voor je feedback en goed om te horen dat je het de goede kant op vindt gaan. Ik heb hieronder geprobeerd zo goed mogelijk aan je vragen tegemoet te komen (en ook de nodige aanpassingen gedaan). Samen met de eerdere antwoorden en aanpassingen, ga ik er daarmee vanuit dat het hiermee - na de 20 a 30 mails met correspondentie en aanpassingen van afgelopen anderhalve maand - afgerond is. En dat de scriptie ook voor jou dus voldoende verdedigbaar is.

Mocht dit niet het geval zijn, dan lijkt het me goed om samen met Daniëlle, de opleidingsdirecteur en jou (en evt. Max, maar die krijgt binnenkort een kind) op korte termijn begin januari een skype gesprek in te plannen. Maar hoop natuurlijk dat het hiermee afgerond is.

Vriendelijke groet, en dank voor alle tijd en moeite die je hierin hebt gestopt,

Jop Hoenderdos

Hierbij de antwoorden op je vragen:

1: Het is me nog steeds niet duidelijk wat de klasses nou zijn die je voorspelt: segment B, segment C, en dan met of zonder jaar erbij. Of allebei? Nee, want in figuur 6 heb je maar zo'n 35 klassen. Waarom blijft dit toch allemaal zo geheimzinnig?

Een deel van de vraag stond al in de abstract, maar heb ik geprobeerd wat te verduidelijken (zie ook hieronder). Daarnaast heb ik - net zoals nu in de Abstract staat - onder figuur 3 ook aangegeven wat er precies voorspeld wordt (alle wijkeigenschappen van de segmenten op basis van data van beide jaren). Onder figuur 6 heb ik uitgelegd waarom er 37 observaties zijn (vanwege de 95% threshold en het gebelanceerd maken van de data). Zie beide aanpassingen ook hieronder.

2. Wat is klasse 8 in figuur 3 in Tabel 4? Ik heb de tekst iets aangepast in figuur 3 om duidelijk te maken wat klasse 8 is. Hiermee hoop ik ook duidelijk te hebben gemaakt hoe de tabel en het figuur met elkaar relateren.

2. Ik wil de jaar totalen in tabellen 2,3,4,5,6, en wil zien dat ze gelijk zijn, en als niet een heldere uitleg daarover in de caption

Heb de vragen als volgt verwerkt, waarbij ik onder elke tabel de jaar aantallen heb toegevoegd. De aantallen jaren tussen de tabellen kunnen verschillen. Dit komt doordat er alleen observaties zijn opgenomen waar minimaal n=10, vanwege privacy redenen vanuit de gemeente (anders is theoretisch mogelijk om de persoon te achterhalen). Deze uitleg is ook opgenomen in de tekst, en heb ik voor de volledigheid ook opgenomen in de titel van de tabel (zie hieronder).

2. in figuur 4 krijgt elke klasse 65 items. Maar in eerdere tabellen zijn er heel veel klasses met minder dan 65 items. Hoe doe je dat met random undersampling?

Figuur 4:

Figuur 4 is het resultaat van random undersampling (dit staat ook in de titel). De final data set bestaat uit 37 verschillende klasses (zie de x-as). 1 van deze 37 klasses, heeft intotaal 65 items. Hierdoor krijgen alle andere samples ook 65 items. Door dit te doen, krijgen we een balanced dataset. De uitleg hiervan staat in the thesis onder het kopje "random Undersample":

4. Het blijft me onduidelijk wat het verband is tussen tabel 6 en tabellen 4 en 5. Als die totalen niet hetzelfde zijn, heb ik niks aan tabel 4 en 5, en weet ik dus nog niet hoe lastig het probleem is. Ik heb dit al eerder aangegeven.

In je vorige mail, gaf je aan dat je een overzicht wou hebben van de y-variabele. Dit is gedaan door middel van tabel 4 en 5 te maken. Hoe deze tabellen gemaakt, kan in de code worden gevonden:

Door de totalen te hebben toegevoed van de vorige vragen, is het nu ook duidelijker hoe de tabelen met elkaar relateren.

@jtothehoenderdos

maartenmarx commented 3 years ago

Hi Jop,

Ik maak uit je brief op dat je deze scriptie wilt verdedigen. Ik heb je scriptie nogmaals bestudeerd, samen met je antwoorden, maar ik kom er nog steeds niet goed uit. Ook heb ik grote moeite met de gekozen verklarende variabelen, in het bijzonder het bedrag, zoals ik heb aangegeven.

Maar goed, als je het hierbij wilt laten, stel ik voor het te uploaden op datanose en dan kunnen we ergens in januari een datum prikken, en kijken hoe het gaat op je verdediging. Dat is nu denk ik dan de beste weg.

Gelukkig nieuwjaar alvast en tot op je verdediging!

Met vriendelijke groeten,

Maarten Marx

Maarten Marx +31 06 400 16 120 maartenmarx@uva.nl IRlab/ILPS Informatics Institute Universiteit van Amsterdam

On Dec 21, 2020, at 15:32 PM, jtothehoenderdos notifications@github.com wrote:

Beste Maarten,

Dank voor je feedback en goed om te horen dat je het de goede kant op vindt gaan. Ik heb hieronder geprobeerd zo goed mogelijk aan je vragen tegemoet te komen (en ook de nodige aanpassingen gedaan). Samen met de eerdere antwoorden en aanpassingen, ga ik er daarmee vanuit dat het hiermee - na de 20 a 30 mails met correspondentie en aanpassingen van afgelopen anderhalve maand - afgerond is. En dat de scriptie ook voor jou dus voldoende verdedigbaar is.

Mocht dit niet het geval zijn, dan lijkt het me goed om samen met Daniëlle, de opleidingsdirecteur en jou (en evt. Max, maar die krijgt binnenkort een kind) op korte termijn begin januari een skype gesprek in te plannen. Maar hoop natuurlijk dat het hiermee afgerond is.

Vriendelijke groet, en dank voor alle tijd en moeite die je hierin hebt gestopt,

Jop Hoenderdos

Hierbij de antwoorden op je vragen:

1: Het is me nog steeds niet duidelijk wat de klasses nou zijn die je voorspelt: segment B, segment C, en dan met of zonder jaar erbij. Of allebei? Nee, want in figuur 6 heb je maar zo'n 35 klassen. Waarom blijft dit toch allemaal zo geheimzinnig?

Een deel van de vraag stond al in de abstract, maar heb ik geprobeerd wat te verduidelijken (zie ook hieronder). Daarnaast heb ik - net zoals nu in de Abstract staat - onder figuur 3 ook aangegeven wat er precies voorspeld wordt (alle wijkeigenschappen van de segmenten op basis van data van beide jaren). Onder figuur 6 heb ik uitgelegd waarom er 37 observaties zijn (vanwege de 95% threshold en het gebelanceerd maken van de data). Zie beide aanpassingen ook hieronder.

https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102777349-b5d63c80-4390-11eb-8a27-519c0f37ce07.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616344208%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=vzFnKVRDXeYoKI4KmAXml0yoZsD4h1ob6XlXXYAT47w%3D&reserved=0 https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102777167-5841f000-4390-11eb-928b-7d8710c88362.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616354203%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=a%2Fod%2FysKrlg0gSts1mQqkm0cFmMyjxy4cNXr9Gpj%2BX0%3D&reserved=0 https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102777785-955ab200-4391-11eb-89e8-483efcba5691.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616354203%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=SCBcNL7DvQi887LCkxkWjXmZK8pK1KfFkukdM5MBV%2Fw%3D&reserved=0

Wat is klasse 8 in figuur 3 in Tabel 4? Ik heb de tekst iets aangepast in figuur 3 om duidelijk te maken wat klasse 8 is. Hiermee hoop ik ook duidelijk te hebben gemaakt hoe de tabel en het figuur met elkaar relateren. https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102778088-30538c00-4392-11eb-8a07-56abbe079195.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616364207%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=N4tjBOLIZlGPlZngJCdUcRSPV0qxhGQceVu84p5%2FQmE%3D&reserved=0

Ik wil de jaar totalen in tabellen 2,3,4,5,6, en wil zien dat ze gelijk zijn, en als niet een heldere uitleg daarover in de caption

Heb de vragen als volgt verwerkt, waarbij ik onder elke tabel de jaar aantallen heb toegevoegd. De aantallen jaren tussen de tabellen kunnen verschillen. Dit komt doordat er alleen observaties zijn opgenomen waar minimaal n=10, vanwege privacy redenen vanuit de gemeente (anders is theoretisch mogelijk om de persoon te achterhalen). Deze uitleg is ook opgenomen in de tekst, en heb ik voor de volledigheid ook opgenomen in de titel van de tabel (zie hieronder).

https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102784302-7dd4f680-439c-11eb-9f2f-be1872f52559.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616364207%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=Vu2giHk4yDrQ4P7dZ%2BQarMxGFWusBHNJZ5pTBGj8GCs%3D&reserved=0 https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102781778-888d8c80-4398-11eb-9462-f72c525f9f25.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616374194%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=YMqq%2F4zvLUj1RjGH58puAYiHNtTpj07GhxKwzYVp1sA%3D&reserved=0 https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102781834-9c38f300-4398-11eb-9402-92c11213068a.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616374194%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=ouJUyut06%2Fyr7b0OwUCVNTx15%2BmyKVKKH3TYXtOKXJI%3D&reserved=0 https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102781875-ac50d280-4398-11eb-8d5c-c7a7f33e3c51.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616384186%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=5NklC6AmcO3acNUIEB%2FXy4qxU7bs8buDvt9cYvRiL9c%3D&reserved=0

in figuur 4 krijgt elke klasse 65 items. Maar in eerdere tabellen zijn er heel veel klasses met minder dan 65 items. Hoe doe je dat met random undersampling?

Figuur 4: https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102782033-f46ff500-4398-11eb-9770-327b0feefb66.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616384186%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=z4tewNBfDpARsIhd9Lb9wCm6Y4D%2FFjVybQ3F66MS3QI%3D&reserved=0 Figuur 4 is het resultaat van random undersampling (dit staat ook in de titel). De final data set bestaat uit 37 verschillende klasses (zie de x-as). 1 van deze 37 klasses, heeft intotaal 65 items. Hierdoor krijgen alle andere samples ook 65 items. Door dit te doen, krijgen we een balanced dataset. De uitleg hiervan staat in the thesis onder het kopje "random Undersample": https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102782451-a90a1680-4399-11eb-9edc-151af5480d62.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616394182%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=RQYOUY3p3FvrsO18OoCutAwiTtTH%2FOwILgaCLfnmVXw%3D&reserved=0

Het blijft me onduidelijk wat het verband is tussen tabel 6 en tabellen 4 en 5. Als die totalen niet hetzelfde zijn, heb ik niks aan tabel 4 en 5, en weet ik dus nog niet hoe lastig het probleem is. Ik heb dit al eerder aangegeven.

In je vorige mail, gaf je aan dat je een overzicht wou hebben van de y-variabele. Dit is gedaan door middel van tabel 4 en 5 te maken. Hoe deze tabellen gemaakt, kan in de code worden gevonden: https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fuser-images.githubusercontent.com%2F29228718%2F102782911-6b59bd80-439a-11eb-8edf-9d2ac63b446d.png&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616394182%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=MperbdI83ecwqKpxEa4N6bTjIf6c6OoRO87EnN%2FRIMY%3D&reserved=0 Door de totalen te hebben toegevoed van de vorige vragen, is het nu ook duidelijker hoe de tabelen met elkaar relateren.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fjtothehoenderdos%2FMasterThesis%2Fissues%2F11%23issuecomment-749003239&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616404175%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=BgWTecFf6%2Fl6%2Fw0hOZY5z0k8rjWsZ45ZqCblIrIazRQ%3D&reserved=0, or unsubscribe https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FAA4ZK4GE3YFDCJ7RGKQ7KHDSV5MANANCNFSM4U7YABWA&data=04%7C01%7CM.J.Marx%40uva.nl%7Cffc7a75375424a11a8b608d8a5bd456b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637441579616404175%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=%2FCQ3oNrghcY9M%2BS6Ry5LKXhwhGxXg%2FjhnRtKa7EjmIU%3D&reserved=0.

jtothehoenderdos commented 3 years ago

Beste maarten,

Is het mogelijk om alvast het inlever proces van de thesis in gang te zetten, en de verdedigingsdatum later te plannen?

Max is momenteel met vaderschapsverlof, maar ik weet niet precies wanneer hij terug is.

Jop

maartenmarx commented 3 years ago

Hi Jop,

dat is prima hoor. maarten

jtothehoenderdos / MasterThesis