hoge RMSE bij afgeleide modellen

leymanan commented 3 years ago

De afgeleide modellen zien er niet steeds zo super uit, vaak hoge RMSE. Maar omdat het afgeleide modellen zijn, hebben ze geen curvevorm die aandacht trekt. Ook daarom lijkt het me nuttig om een overzicht te hebben van alle modellen.

Sowieso iets om in de gaten te houden, en eens te overleggen (ev. met Thierry) hoe ik daar best mee omga.

ElsLommelen commented 3 years ago

De reden van die hogere RMSE bij afgeleide modellen in vergelijking met andere modeltypen is dat het model een resultaat is van 2 modelleringen: eerst het basismodel (Vlaams model), en dan de verschuiving. Voor de berekening van de RMSE hebben we de onzekerheid van beide modellen in rekening moeten brengen. (Staat ook ergens in de handleiding uitgelegd.) Intuïtief is het ook wel logisch dat die onzekerheid voor dit model heelwat groter is: je hebt (veel) minder metingen beschikbaar en je bent ook niet heel zeker dat die vorm (bepaald op basis van een gemiddelde van metingen van andere domeinen) heel juist is voor dat domein.

Wat bedoel je met 'een curvevorm die aandacht trekt'? Die vorm is gebaseerd op alle basismodellen samen, dus is in feite een gemiddelde van heel veel metingen van verschillende plaatsen (rijke bodems, arme bodems,...). Dus het is te verwachten dat die curve geen uitgesproken vorm heeft (en daardoor ook geen afwijkende vorm zal hebben).

Dat afgeleid model is toen na enkele overlegmomenten toegevoegd als een soort noodoplossing, om tenminste een curve te kunnen maken voor domeinen waarvoor er geen 50 metingen waren (of voor boomsoorten die daar eerder zeldzaam zijn). Het ideale scenario is uiteraard om overal 50 metingen te hebben, om zo tot een meer nauwkeurige curve (met lage RMSE) te komen. (Het eerste idee was geweest om domeinen te clusteren, maar dit bleek toen onmogelijk te zijn omdat niet te voorspellen was welke domeinen samengenomen konden worden: locatie, bodemtype, provincie,... we vonden geen goede variabele om te kunnen voorspellen wat geclusterd kon worden; dichtbij elkaar gelegen domeinen op hetzelfde bodemtype bleken vaak totaal andere curves te hebben. En dit was toen de enige oplossing met een acceptabel resultaat.)

Ook hier kan je trouwens door invoer in de tabel 'uitzondering' aanduiden als je geen dhcurve wil opmaken omdat deze niet goed is, maar gevolg is wel dat je geen curve kan maken voor dat domein. Als een model(vorm) echt niet goed is voor een bepaald domein, vrees ik dat extra metingen tot >50 bomen het enige oplossing zijn.

Tja, ook hier denk ik dat de beste raad is: bekijk de curve eens samen met bosbeheerders die de bossen in kwestie kennen, bv. regiobeheerders, en vraag wat zij ervan denken.

leymanan commented 3 years ago

curvevorm die aandacht trekt: holle curvevorm, of dalend bij hogere omtrekklasses. Die heb je niet bij de afgeleide modellen, want ze volgen het vlaams model. Maar daardoor krijg je enkel de curves met afwijkende metingen te zien, tot ze goedgekeurd zijn. En erna niet meer, ook al wijken de metingen sterk af van de curve. En is de curve dus niet zo goed. ...

Heb dat eens laten bezinken, en overleg met beheerder om te zien of een curve goed is, is eigenlijk geen optie. Die zien dat ook niet. Alternatief is eerder zoeken naar domeinen om te clusteren ... en bepaalde domeinen aanvullen met extra metingen.

En om te beginnen zorgen voor een (misschien beperkte) lijst van domein-bms-combinaties waar de curve wel goed genoeg is. Maar goed dat je nog eens aanhaalt dat het inderdaad een nood-oplossing was ...

Op vr 2 okt. 2020 om 13:32 schreef ElsLommelen notifications@github.com:

De reden van die hogere RMSE bij afgeleide modellen in vergelijking met andere modeltypen is dat het model een resultaat is van 2 modelleringen: eerst het basismodel (Vlaams model), en dan de verschuiving. Voor de berekening van de RMSE hebben we de onzekerheid van beide modellen in rekening moeten brengen. (Staat ook ergens in de handleiding uitgelegd.) Intuïtief is het ook wel logisch dat die onzekerheid voor dit model heelwat groter is: je hebt (veel) minder metingen beschikbaar en je bent ook niet heel zeker dat die vorm (bepaald op basis van een gemiddelde van metingen van andere domeinen) heel juist is voor dat domein.

Wat bedoel je met 'een curvevorm die aandacht trekt'? Die vorm is gebaseerd op alle basismodellen samen, dus is in feite een gemiddelde van heel veel metingen van verschillende plaatsen (rijke bodems, arme bodems,...). Dus het is te verwachten dat die curve geen uitgesproken vorm heeft (en daardoor ook geen afwijkende vorm zal hebben).

Dat afgeleid model is toen na enkele overlegmomenten toegevoegd als een soort noodoplossing, om tenminste een curve te kunnen maken voor domeinen waarvoor er geen 50 metingen waren (of voor boomsoorten die daar eerder zeldzaam zijn). Het ideale scenario is uiteraard om overal 50 metingen te hebben, om zo tot een meer nauwkeurige curve (met lage RMSE) te komen. (Het eerste idee was geweest om domeinen te clusteren, maar dit bleek toen onmogelijk te zijn omdat niet te voorspellen was welke domeinen samengenomen konden worden: locatie, bodemtype, provincie,... we vonden geen goede variabele om te kunnen voorspellen wat geclusterd kon worden; dichtbij elkaar gelegen domeinen op hetzelfde bodemtype bleken vaak totaal andere curves te hebben. En dit was toen de enige oplossing met een acceptabel resultaat.)

Ook hier kan je trouwens door invoer in de tabel 'uitzondering' aanduiden als je geen dhcurve wil opmaken omdat deze niet goed is, maar gevolg is wel dat je geen curve kan maken voor dat domein. Als een model(vorm) echt niet goed is voor een bepaald domein, vrees ik dat extra metingen tot >50 bomen het enige oplossing zijn.

Tja, ook hier denk ik dat de beste raad is: bekijk de curve eens samen met bosbeheerders die de bossen in kwestie kennen, bv. regiobeheerders, en vraag wat zij ervan denken.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/inbo/dhcurve/issues/37#issuecomment-702681944, or unsubscribe https://github.com/notifications/unsubscribe-auth/AGKXN5CK3SEK6OGNEA47B3TSIW24PANCNFSM4SBPWHHQ .

--

Anja Leyman

Expert Cel Beheerplanning en Monitoring

Ik werk tijdelijk niet op woensdag- en vrijdagnamiddag.

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

Vlaamse overheid

AGENTSCHAP NATUUR & BOS

Standplaats Instituut voor Natuur- en Bosonderzoek (INBO) Gaverstraat 4, 9500 Geraardsbergen T: 054 436 182 M: 0495 14 90 60 E-mail: anja.leyman@vlaanderen.be anja.leyman@lne.vlaanderen.be

www.natuurenbos.be http://www.natuurenbos.be/

De inhoud van dit bericht en eventuele bijlage(n) verbinden het Agentschap voor Natuur en Bos niet, zolang niet bevestigd door een geldig ondertekend document

ElsLommelen commented 3 years ago

Tja, domeinen clusteren, maar op basis waarvan? Ik heb toen na lang zoeken geen mogelijkheid gevonden om ze op een systematische manier te clusteren, dus je gaat dan echt voor individuele domeinen moeten gaan checken of ze geclusterd kunnen worden, en dit op basis van veldkennis én metingen. Dit kan een oplossing zijn voor enkele individuele domeinen (die vlakbij elkaar liggen, gelijkaardige bodem en vegetatiesamenstelling hebben, hetzelfde beheer en historiek, hetzelfde reliëf,... en dan moet je uiteraard nog checken of de metingen gelijkaardig zijn). Maar als je niet direct spontaan aan een kandidaat-tweelingdomein denkt, denk ik dat extra metingen uitvoeren weleens meer kostenefficiënt zou kunnen zijn dan op zoek gaan naar een optie om te clusteren (met zeker voor domeinen met weinig metingen een risico dat je een verkeerde keuze maakt). Mss gewoon bij elke houtverkoop de voor de verkoop nodige metingen laten uitvoeren, en dit tot er voldoende zijn voor een goed model? Daarna (of nu voor een aantal bossen) kan het model gebruikt worden...

Puur technisch voor het package ga ik ervan uit dat je hiervoor niks extra nodig hebt? (Ervan uitgaand dat het voorstel uit issue #36 uitgevoerd wordt.)

leymanan commented 3 years ago

OK!

inbo / dhcurve

hoge RMSE bij afgeleide modellen #37

www.natuurenbos.be http://www.natuurenbos.be/