inbo / dhcurve

An R package for automated modelling of diameter-height relations for trees
https://inbo.github.io/dhcurve
GNU General Public License v3.0
0 stars 0 forks source link

betrouwbaarheidsinterval geschatte hoogte #48

Closed leymanan closed 2 years ago

leymanan commented 3 years ago

(c) Thierry: schatting +-1.96 RMSE is het betrouwbaarheidsinterval voor de voorspelling van 1 boom. Als je een voorspelling vraagt van n bomen met dezelfde diameter, dan is het betrouwbaarheidsinterval voor de gemiddelde hoogte van die n bomen: schatting +- 1.96 RMSE / sqrt(n). Het achterliggende idee is dat de werkelijke hoogte van sommige bomen overschat is en van andere onderschat. Als je dat uitmiddelt zal de spreiding op hun gemiddelde kleiner zijn dan op de individuele waarden.

Rekenvoorbeeld: geschatte hoogte 30 m, RMSE 3 m, voorspelling voor 100 bomen. Ik gebruik even 2 i.p.v. 1.96 voor het gemak. geschatte hoogte 1 boom: 30 +- 2 3 = 30 (24; 36) geschatte gemiddelde hoogte van 100 bomen: 30 +- 2 3 / sqrt(100) = 30 +- 6 / 10 = 30 (29,4; 30,6)

Veel verschil is er niet tussen 2 en 1.96. Ook die laatste is een benadering. De meeste accurate benadering in R is qnorm(0.975).

*Misschien beter het interval weglaten uit de output en de berekening toevoegen in de documentatie. Eventueel met een figuur. x-as = RMSE, y-as qnorm(0.975) RMSE / sqrt(n). En dan een lijn voor verschillende waarden van n (1, 4, 16, 64, 128).**

ElsLommelen commented 3 years ago

@ThierryO Nog een vraagje in dit verband: om de afwijkende metingen te selecteren, hebben we een BI van 2,5 * RMSE gehanteerd, wat dus iets breder is dan het hierboven beschreven BI. Zouden we dit best behouden, of passen we dit ook aan? Ergens klinkt het wel logisch om dit iets breder te nemen zodat enkel de echt afwijkende gegevens moeten gecontroleerd worden, maar ik wou voor de zekerheid toch even checken...

ThierryO commented 3 years ago

@leymanan een statisticus vragen om geen betrouwbaarheidsinterval te tonen is vloeken in de kerk. ;-)

@ElsLommelen: de breedte van een betrouwbaarheidsinterval en criteria voor anomalieën zijn twee verschillende dingen. Aangezien we veel metingen hebben, kunnen we een breder interval gebruiken voor de anomalieën.

leymanan commented 3 years ago

@ThierryO : ik zou BI ook liever in output houden, maar sowieso kan dat niet op die manier geïmplementeerd worden in IVANHO: daar gaat enkel hoogte per diameterklasse gebruikt worden. Was meer om verwarring te voorkomen bij boswachters, zeker omdat "*_schatting +-1.96 RMSE is het betrouwbaarheidsinterval voor de voorspelling van 1 boom_**", voor n bomen is dat lager, maar die n kennen we niet ... En dan ben ik bang dat ze daarop gaan flippen, want dat zal vrij groot zijn. terwijl het natuurlijk nooit voor maar één boom zal gebruikt worden.

Maar zeker nodig om dat in documentatie op te nemen. Ter info: in de versie van 2017 zat BI niet in d eoutput, is omdat ik het gevraagd heb, dat het erbij gevoegd is ;-)

Maar ge doet mij nu wel weer twijfelen: kan misschien geen kwaad dat het erbij zit, daarom moet ik het nog niet aan boswachters doorgeven...

ElsLommelen commented 3 years ago

@ThierryO Ter info: die post van Anja is letterlijk gekopieerd uit je email van 20 januari. :-D (Er is mss wel een beetje context verdwenen doordat de rest van het emailverkeer niet toegevoegd is)

Ok, mss moet ik het dan niet betrouwbaarheidsinterval noemen bij die anomalieën. Ik zal dit nog even aanpassen.

@leymanan De RMSE zit er nog wel bij, dus dan is dat BI snel even berekend, en meteen voor het gewenste aantal bomen. Ik heb die formule enkel toegevoegd in de handleiding, laat maar in je review weten als dit ook in de help-functie toegevoegd moet worden (evt. vereenvoudigde versie voor 1 boom?).

ElsLommelen commented 2 years ago

@leymanan Euh, ik neem aan dat dit issue vorig jaar opgelost geweest is, maar niet gesloten?

leymanan commented 2 years ago

inderdaad ;-) bedankt!