jtothehoenderdos / MasterThesis

0 stars 0 forks source link

getallen data graag precies maken #9

Open maartenmarx opened 3 years ago

maartenmarx commented 3 years ago

Hi @jtothehoenderdos ,

De getallen over je data lijken niet te kloppen. Kan je zorgen dat dit allemaal exact klopt? Zie onderstaande punten:

Het is erg lastig je verhaal te volgen met de gegeven informatie.

  1. Table 2 en 3 aanpassen zodat de totalen exact overeenkomen met die van tabel 1. Ook graag uitgesplist per jaar.
  2. The final youth care dataset contained 71 unique SPICs with 31242 rows of data. klopt niet met de totalen in tabel 1. In het verhaal voorafgaand aan deze zin wordt de restructie tt 2018-19 nogmaals herhaald en ng meer ruijen weggehaald. Dit kan dus niet.
  3. Graag een exacte bescjrijving van de gebruikte datasets. De X en de y, en alle totalen. Van elke variabele graag een histogram. Ook exact aangeven hoe de random undersampling eruit ziet.
  4. Wat later worden er blijkbaar nog weer wat data verwijderd: Therefore we made an decision to take 95% of the values with the largest sample size. This resulted in remov- ing 34 categories with 1562 samples in total. Dit verwijderen allemaal eerst doen en daarna een goede, exacte en inzicht gevende beschrijving geven van de set waarmee je wel werkt.

Succes!

jtothehoenderdos commented 3 years ago

Hoi @maartenmarx

Dank voor je punten.

Even mijn feedback hierop:

  1. tabel 2 en 3 gaan er nooit het zelfde uitzien als tabel 1. Dit komt onderander door dat ik door privacy reden bij samples minder dan 10 niet kan aangeven wat er in zit, dus dan zal dit nooit 1 op 1 overeen komen. Ik zal ze echter wel uitsplitsen voor je per jaar.
  2. Ik ga hier naar kijken.
  3. Ik zie het niet helemaal voor mij hoe ik een histogram moet maken van alle 190 variable die in de dataset zitten. Dit zal het verslag uiterst onleesbaar maken, en vraag ik mij af wat men er mee gaat doen.
  4. Dit lijtk mij niet helemaal de goede manier. Als ik eerst ga verwijderen, en vervolgens de datajaartallen ristricitie er overheen ga gooien, dat is het probleem wat ik probeer op te lossen van het verwijderen van de veriablen toch nog steeds niet opgelost. Dit kan dan nog steeds betekenden dat er maar 2 variablen per sample zitten... Of begrijp ik je punt niet helemaal?

Jop

mckeuken commented 3 years ago

Hoi Jop, Volgens mij komen mijn mails naar je gemeente account niet aan. Laten we zo even samen zittenen naar de punten van maarten kijken, concreet plan maken hoe deze en de oudere punten in een keer verwerkt kunnen worden en dit dan rondsturen.

Dit in plaats van deze mail conversatie waar we halve punten verwerken.

Om 1130 even bellen met teams? Groet, Max

Sent from my iPhone

On 30 Nov 2020, at 10:32, jtothehoenderdos notifications@github.com wrote:

 Hoi @maartenmarx

Dank voor je punten.

Even mijn feedback hierop:

tabel 2 en 3 gaan er nooit het zelfde uitzien als tabel 1. Dit komt onderander door dat ik door privacy reden bij samples minder dan 10 niet kan aangeven wat er in zit, dus dan zal dit nooit 1 op 1 overeen komen. Ik zal ze echter wel uitsplitsen voor je per jaar. Ik ga hier naar kijken. Ik zie het niet helemaal voor mij hoe ik een histogram moet maken van alle 190 variable die in de dataset zitten. Dit zal het verslag uiterst onleesbaar maken, en vraag ik mij af wat men er mee gaat doen. Dit lijtk mij niet helemaal de goede manier. Als ik eerst ga verwijderen, en vervolgens de datajaartallen ristricitie er overheen ga gooien, dat is het probleem wat ik probeer op te lossen van het verwijderen van de veriablen toch nog steeds niet opgelost. Dit kan dan nog steeds betekenden dat er maar 2 variablen per sample zitten... Of begrijp ik je punt niet helemaal? Jop

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

jtothehoenderdos commented 3 years ago

@mckeuken Lijkt mij een goede!

tot zo

mckeuken commented 3 years ago

Hi @jtothehoenderdos ,

De getallen over je data lijken niet te kloppen. Kan je zorgen dat dit allemaal exact klopt? Zie onderstaande punten:

Het is erg lastig je verhaal te volgen met de gegeven informatie.

  1. Table 2 en 3 aanpassen zodat de totalen exact overeenkomen met die van tabel 1. Ook graag uitgesplist per jaar.
  2. The final youth care dataset contained 71 unique SPICs with 31242 rows of data. klopt niet met de totalen in tabel 1. In het verhaal voorafgaand aan deze zin wordt de restructie tt 2018-19 nogmaals herhaald en ng meer ruijen weggehaald. Dit kan dus niet.
  3. Graag een exacte bescjrijving van de gebruikte datasets. De X en de y, en alle totalen. Van elke variabele graag een histogram. Ook exact aangeven hoe de random undersampling eruit ziet.
  4. Wat later worden er blijkbaar nog weer wat data verwijderd: Therefore we made an decision to take 95% of the values with the largest sample size. This resulted in remov- ing 34 categories with 1562 samples in total. Dit verwijderen allemaal eerst doen en daarna een goede, exacte en inzicht gevende beschrijving geven van de set waarmee je wel werkt.

Succes!

Hoi Maarten en Jop,

Ik ben het eens met de feedback en dit komt de thesis zeker ten goede. Nog ook even gekeken naar de andere comments van Maarten gegeven de laatste versie van de thesis. Daar stonden ook nog een paar dingen open.

Plan van aanpak zoals besproken met Jop:

jtothehoenderdos commented 3 years ago

hoi @maartenmarx

Ik heb vannacht mijn latop opnieuw aangezet om de modellen te latern runnnen, om zo de std restulataten te krijgen. Echter is er vanacht wat mis gegaan, waardoor ik de resulaten daarop laten vandaag in de thesis bij zullen komen. De eerste signalen zijn dat de std bijzonder klein zijn.

De andere punten zijn wel verwerkt, zo kan je al kijken naar deze versie. Heb je al iets gehoord van jou reviewer? Anders zouden we voor eind volgende week alsvat een afspraak kunnen maken voor de verdediging:)

Ik hoor graag van je.

Jop Master_Thesis (33).pdf

maartenmarx commented 3 years ago

Hi Joep,

Dank.

Dit ziet er al een stuk beter uit. Graag zie ik totalen in je tabellen. Tabel 4 lijkt dan toch weer niet te kloppen met de eerdere tabellen, zeker omdat je beschrijft dat je meer dan 1.5K samples weghaalt. Dit soort dingen zijn showstoppers, Jop. Zorg ajb dat dat allemaal perfect in orde is.

Ook heb ik echt je heldere antwoorden op mijn eerdere vragen nodig, en dus niet zo’n zin als “heb een zin toegevoegd”. En graag ook weer uitgebreide antwoorden op mijn laatste 4 punten.

Ik verwacht nu echt een grote stap van jouw kant Jop. Op dit moment is je onderzoek niet goed te volgen, en is dit dus geen volwaardige DS scriptie. Plannen van een datum voor volgende week is nu dus ook echt niet aan de orde.

Met vriendelijke groeten,

Maarten Marx


Maarten Marx, maartenmarx@uva.nl ILPS, Informatics Institute, Universiteit van Amsterdam

On Dec 1, 2020, at 08:23 AM, jtothehoenderdos notifications@github.com wrote:

hoi @maartenmarx https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fmaartenmarx&data=04%7C01%7CM.J.Marx%40uva.nl%7Ca2fb90bf993e445c5b1408d895c9f0b9%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C1%7C637424041841800553%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=kMMZDL33etEpr%2FwZ0fmMVlVrUVS%2BBnPBqsg3YD%2B8pcg%3D&reserved=0 Ik heb vannacht mijn latop opnieuw aangezet om de modellen te latern runnnen, om zo de std restulataten te krijgen. Echter is er vanacht wat mis gegaan, waardoor ik de resulaten daarop laten vandaag in de thesis bij zullen komen. De eerste signalen zijn dat de std bijzonder klein zijn.

De andere punten zijn wel verwerkt, zo kan je al kijken naar deze versie. Heb je al iets gehoord van jou reviewer? Anders zouden we voor eind volgende week alsvat een afspraak kunnen maken voor de verdediging:)

Ik hoor graag van je.

Jop Master_Thesis (33).pdf https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fjtothehoenderdos%2FMasterThesis%2Ffiles%2F5620856%2FMaster_Thesis.33.pdf&data=04%7C01%7CM.J.Marx%40uva.nl%7Ca2fb90bf993e445c5b1408d895c9f0b9%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C1%7C637424041841800553%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=bdkrrj%2F4lmTHuXLfZbsN9lQRI27bq6xh7Rfw7zzpTGg%3D&reserved=0 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fjtothehoenderdos%2FMasterThesis%2Fissues%2F9%23issuecomment-736277006&data=04%7C01%7CM.J.Marx%40uva.nl%7Ca2fb90bf993e445c5b1408d895c9f0b9%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C1%7C637424041841810549%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=YzFScsKfcbVN2xts9F%2BbTYdix4ki65obM%2FDGLZ7wejo%3D&reserved=0, or unsubscribe https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FAA4ZK4GJ4UBFC2IVRSR6BKTSSSKVNANCNFSM4UGW5TKQ&data=04%7C01%7CM.J.Marx%40uva.nl%7Ca2fb90bf993e445c5b1408d895c9f0b9%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C1%7C637424041841820546%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=ZWCdyFXPSug%2BCyJvWKEkpt8FHQsVStTgNmIA0%2FijsQA%3D&reserved=0.