jtothehoenderdos / MasterThesis

0 stars 0 forks source link

parameters XGboost #4

Open jtothehoenderdos opened 3 years ago

jtothehoenderdos commented 3 years ago

hoi @maartenmarx

Een korte update vanaf mijn kant.

Ik ben momenteel met mijn laatste model bezig. De gradient boosting. Hiervoor gebruik ik XGBoost, omdat deze een stuk efficiënter is dan de standaard die in sklearn zit.

Nu heb ben ik bezig met de laatste stap, het tunen van dit model. Ik vind echter bijzonder weinig literatuur over welke waarde nou goed zijn en welke ik kan proberen en waarom. Ook kost elk model die ik maak met mijn data set, 4 min. Dus kan ik niet te veel hierin doen. Ik heb nu op de volgende parameters uitgekomen, die er 10 uur over doen om te fitten. Mijn vraag aan jou is of dit goed is of dat jij hier een ervaring mee hebt waarom ik wel voor bepaalde parameters moet gaan.

param_grid = { 'max_depth': range(4,26,4), 'scale_pos_weight' : [1, 25, 50, 75, 100], 'colsample_bytree': np.arange(0.5,1.0,0.3), }

max_depth voorkomt overfitting, en heb deze ook gebruikt bij mijn decision tree. scale_pos_weight wordt gebruikt bij XGBoost bij grote imbalance data sets. colsample_bytree: Denotes the fraction of columns to be randomly samples for each tree.

Eens, of heb je nog andere goede en veel slimmere ideeen.

Als dit model klaar is, heb ik de rest van de tijd om aan mijn verslag te zitten.

Ik hoor graag van je,

Jop

maartenmarx commented 3 years ago

Beste Jop,

Dank weer voor je update. Deze grid search lijkt me ruim voldoende en je bekijkt de relevante parameters. Dus ga hier mee verder! Succes!

Met vriendelijke groeten,

Maarten Marx


Maarten Marx, maartenmarx@uva.nl ILPS, Informatics Institute, Universiteit van Amsterdam Office location: https://ilps.science.uva.nl/ilps-has-moved/

On Nov 2, 2020, at 18:10 PM, jtothehoenderdos notifications@github.com wrote:

hoi @maartenmarx https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fmaartenmarx&data=04%7C01%7CM.J.Marx%40uva.nl%7Cf9f8b34b47cd4037ec6708d87f523b8b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637399338443086543%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=nvh7wdJa9bQLf6vgw18GMzgVrNSL4GrlQnBQQNUw5Vc%3D&reserved=0 Een korte update vanaf mijn kant.

Ik ben momenteel met mijn laatste model bezig. De gradient boosting. Hiervoor gebruik ik XGBoost, omdat deze een stuk efficiënter is dan de standaard die in sklearn zit.

Nu heb ben ik bezig met de laatste stap, het tunen van dit model. Ik vind echter bijzonder weinig literatuur over welke waarde nou goed zijn en welke ik kan proberen en waarom. Ook kost elk model die ik maak met mijn data set, 4 min. Dus kan ik niet te veel hierin doen. Ik heb nu op de volgende parameters uitgekomen, die er 10 uur over doen om te fitten. Mijn vraag aan jou is of dit goed is of dat jij hier een ervaring mee hebt waarom ik wel voor bepaalde parameters moet gaan.

param_grid = { 'max_depth': range(4,26,4), 'scale_pos_weight' : [1, 25, 50, 75, 100], 'colsample_bytree': np.arange(0.5,1.0,0.3), }

max_depth voorkomt overfitting, en heb deze ook gebruikt bij mijn decision tree. scale_pos_weight wordt gebruikt bij XGBoost bij grote imbalance data sets. colsample_bytree: Denotes the fraction of columns to be randomly samples for each tree.

Eens, of heb je nog andere goede en veel slimmere ideeen.

Als dit model klaar is, heb ik de rest van de tijd om aan mijn verslag te zitten.

Ik hoor graag van je,

Jop

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fjtothehoenderdos%2FMasterThesis%2Fissues%2F4&data=04%7C01%7CM.J.Marx%40uva.nl%7Cf9f8b34b47cd4037ec6708d87f523b8b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637399338443086543%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=qyuonNaX%2Fl9Jh95QHlfoR9IpJWtHdOUiRwV9OmlupbI%3D&reserved=0, or unsubscribe https://eur04.safelinks.protection.outlook.com/?url=https%3A%2F%2Fgithub.com%2Fnotifications%2Funsubscribe-auth%2FAA4ZK4CIX7EZ63IYLMB7HRTSN3RZFANCNFSM4THXJLWA&data=04%7C01%7CM.J.Marx%40uva.nl%7Cf9f8b34b47cd4037ec6708d87f523b8b%7Ca0f1cacd618c4403b94576fb3d6874e5%7C1%7C0%7C637399338443096506%7CUnknown%7CTWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0%3D%7C1000&sdata=AfT9U36iNnAkJ6Rf2zMX9zFDY4nfzA6Wsv%2FlD5ObTLQ%3D&reserved=0.