Våre beste er xgboost og h2o. Ønsker å få opp Tensorflow. Hva er dine erfaringer?
Svar: Kombinasjon av to modeller ga best (cat og xg)
Hvordan gå fram for å feature generere? Hvordan vite hvilke kolonner man skal bruke for å lage nye, hvilke man skal kombinere osv.
Svar: Se på feature importance og lage nye features ut av de
Har foreløpig laget nye kolonner som sier noe om tiden som sykler
Hvilke kolonner å droppe? Kan feature importance brukes?
Svar: ja
Hva kan vi gjøre for å ta hensyn til feil mellom observert og estimert vær?
Stor del av treningsdata er observert, test data er estimert
Svar: Ha med binær feature på om det er estimert eller observert. Kunne sett på overestimasjon og underestimasjon.
Hvordan kan vi best aggregere kolonner?
x data har fire ganger så mange kolonner som y. Foreløpig har vi brukt gjennomsnitt av fire og fire rader for x
Svar: Ta snitt eller legg sammen. Prøve ta last time_forecast fordi kanskje vi bommer prediksjon med en time
Har det store gapet i data før estimert treningsdata noe å si?
B og C har et 6 måneders hull i data mellom observert og estimert. Her har vi verken X data eller Y data.
Ceiling_height settes til høy verdi der NaN, eventuelt skjønner modellen at det ikke er skyer der vi har tomme celler i denne kolonnen
Svar fra studass:
EDA:
from dataprep import eda
eda.create_report()
Evaluering:
Bruke evalueringsmetoden deres
Quick fixes:
Sjekke hvor mye modellen vektla ulike features
Bruke snittet av ulike modeller
Fjernet 40 dårligste features og fikk bedre
Sikte oss inn på måneden mai
Kombinere lufttrykk:
Hvis dere finner ut at det er viktig kan det hjelpe
Features:
Features som sikter til y-verdi kan overfitte
Snitt temperatur årstid
Snitt temperatur tid
Koble opp features mot gamle prediksjoner
Prøve å lage en modell med en kolonne om hvilke lokasjon
Andre ting:
Ikke prediker på predikasjon
Slette data som er dårlig
Kan prøve å dobbeltpredikere
Se på feature importance og se hvis noen verdier vises som uviktige men vi tror de er viktige
Trene en modell
Ha med random_state på modeller.
Labelencoding
Vaske data
Kutte ned på features (prøve med kun 20 f.eks)
Hvilke modeller fungerte best når du hadde emnet?
Hvordan gå fram for å feature generere? Hvordan vite hvilke kolonner man skal bruke for å lage nye, hvilke man skal kombinere osv.
Hvilke kolonner å droppe? Kan feature importance brukes?
Hva kan vi gjøre for å ta hensyn til feil mellom observert og estimert vær?
Hvordan kan vi best aggregere kolonner?
Har det store gapet i data før estimert treningsdata noe å si?
Ceiling_height settes til høy verdi der NaN, eventuelt skjønner modellen at det ikke er skyer der vi har tomme celler i denne kolonnen
Svar fra studass:
EDA:
from dataprep import eda eda.create_report()
Evaluering: Bruke evalueringsmetoden deres
Quick fixes: Sjekke hvor mye modellen vektla ulike features Bruke snittet av ulike modeller Fjernet 40 dårligste features og fikk bedre Sikte oss inn på måneden mai
Kombinere lufttrykk: Hvis dere finner ut at det er viktig kan det hjelpe
Features: Features som sikter til y-verdi kan overfitte Snitt temperatur årstid Snitt temperatur tid Koble opp features mot gamle prediksjoner Prøve å lage en modell med en kolonne om hvilke lokasjon
Andre ting: Ikke prediker på predikasjon Slette data som er dårlig Kan prøve å dobbeltpredikere Se på feature importance og se hvis noen verdier vises som uviktige men vi tror de er viktige Trene en modell Ha med random_state på modeller. Labelencoding
Vaske data Kutte ned på features (prøve med kun 20 f.eks)
Sette ceiling_height til kunstig høy.