bereik afgeleide curves

inbo / dhcurve

An R package for automated modelling of diameter-height relations for trees

https://inbo.github.io/dhcurve

GNU General Public License v3.0

0 stars 0 forks source link

bereik afgeleide curves #53

Closed leymanan closed 1 year ago

leymanan commented 2 years ago

Bereik van de afgeleide curves aanpassen aan de metingen die bij de aanmaak van de curve betrokken zijn. Dat zijn enkel de metingen > 0.5 m. Op dit moment start het bereik bij 0.55 m als er ook metingen < 0.5 m gemeten zijn, terwijl deze niet gebruikt worden bij aanmaak curve. Soms starten de daaropvolgende metingen pas vanaf bv. omtrek 1m.

leymanan commented 2 years ago

Ik bedenk nu dat het toch nuttig is om ook in die richting schattingen van hoogte te hebben,. Issue vervalt dus. Sorry.

ElsLommelen commented 2 years ago

Bekijk het emailverkeer hierover eens (12-13 jan, voorafgaand aan toevoegen van dit issue), hierin geef je terecht aan dat de huidige benadering van die ondergrens niet correct is: we nemen de metingen < 0.5 m niet in beschouwing en hebben daardoor geen metingen < 1 m, maar we geven wel een curve voor een interval van 0.5 tot 1 m terwijl we geen metingen gebruikt hebben om het model hier te fitten. Het kan mss wel nuttig zijn om 'schattingen' te hebben, maar in hoeverre is het wenselijk om 'schattingen' te geven die niet gebaseerd zijn op meetresultaten en waarvan je dus geen enkel idee hebt of ze wel betrouwbaar zijn?

Dus ik zou consequent zijn met de rest van het package en enkel schattingen geven waar metingen gebeurd zijn. Als iemand in dit geval schattingen wil hebben voor het interval tussen 0.5 en 1 m, volstaan enkele extra metingen van bomen met omtrek 0.55 m...

Wat we evt. wel eens zouden kunnen bekijken, is in hoeverre het een optie is om voor de afgeleide modellen de metingen < 0.5 m mee te nemen voor het fitten en het eindresultaat. Nadeel is dat het basismodel opgesteld wordt om een goede benadering te geven boven 0.5 m, dus vraag is in hoeverre we die curvevorm onder 0.5 m nog betrouwbaar genoeg is om te gebruiken om het afgeleide model te fitten. Om eens verder te bekijken.

Hoe we het precies oplossen, is nog te bekijken, maar ik zou in elk geval dit issue open laten tot er een oplossing is voor het feit dat er resultaten gegeven worden voor een interval zonder metingen aan het begin van een curve.

leymanan commented 2 years ago

OK. Maar waar ik nu op stoot, is dat we door zo voorzichtig te zijn bij de bepaling van het bereik van de curve, er voor een groot deel van de omtrekklasses in de houtverkoop géén hoogte geschat wordt. Terwijl een deel daarvan zeker wel OK is volgens mij. Zo zullen we door gebruik van kwantielen (ipv exacte aantallen) bv. 6 metingen in de hoogste omtrekklasse niet meenemen bij een grote dataset, maar wel bij een kleine dataset ... Ik weet dat dat wat kort door de bocht is, en het ook afhangt van hoe ver deze metingen verwijderd zijn van het merendeel van de dataset, maar toch ...

En dan denk ik dat - zeker bij gebruik van een afgeleide functie waar de vorm toch al vastligt - extrapolatie naar lagere omtrekklasses in bepaalde gevallen ook mogelijk moet zijn (weliswaar statistisch niet correct, dat weet ik ook wel, maar soms moeten we ook pragmatisch kunnen/durven zijn). Bovendien dragen de allerlaagste omtrekklasses maar beperkt bij aan het totaal (geschatte) volume voor de houtverkoop.

Ik dacht daar sowieso nog eens een overleg voor in te plannen, ev. samen met Thierry. Ik heb vorige week eindelijk de data van de "recente" houtverkopen (2014-2022) vast gekregen, en dan zie je dat er toch nog veel niet gedekt wordt met deze curves...

ElsLommelen commented 2 years ago

En dan denk ik dat - zeker bij gebruik van een afgeleide functie waar de vorm toch al vastligt - extrapolatie naar lagere omtrekklasses in bepaalde gevallen ook mogelijk moet zijn (weliswaar statistisch niet correct, dat weet ik ook wel, maar soms moeten we ook pragmatisch kunnen/durven zijn).

Probleem hierbij lijkt me vooral: wat als de vorm van de curve van het basismodel totaal niet overeenkomt met de spreiding van de metingen in het afgeleide model, en dan denk ik vooral aan een verschil van de helling van de curve. Als je aan beide uiteinden van je interval een aantal metingen hebben, gaan die er wel voor zorgen dat je curve mooi in het midden ligt (en de geschatte waarde dus nergens extreem afwijkt). Maar als je aan een van de uiteinden totaal geen metingen hebt en aan het andere uiteinde heel veel metingen, is er een grote kans dat de schatting bij het uiteinde zonder metingen toch wel aanzienlijk afwijkt als die curve een heel andere hellingsgraad heeft dan de werkelijkheid van dat specifieke domein (wat we dus niet kennen door een gebrek aan metingen). De metingen van lage omtrekklassen (als aanwezig) mee gebruiken voor het model, zou wel kunnen helpen om dit recht te trekken, maar anderzijds is er dan weer een minder goede fit op het deel boven 0.5 m (vandaar dat we destijds gekozen hebben om die gegevens niet mee te gebruiken voor de fit). Zonder deze metingen heb je zelfs geen idee dat dit probleem zich voordoet en dat de schatting toch wel vrij sterk afwijkt van de de werkelijkheid.

Ik heb vorige week eindelijk de data van de "recente" houtverkopen (2014-2022) vast gekregen, en dan zie je dat er toch nog veel niet gedekt wordt met deze curves...

Komt dit doordat die omtrekklassen niet verkocht worden, of worden ze niet opgemeten omdat ze dit niet de moeite vinden om de kostprijs exact in te schatten, of is er nog een andere reden? Het lijkt me wel belangrijk om hier eerst een zicht op te hebben. Als het om een of andere reden niet belangrijk is om bepaalde maten van bomen op te meten, dan is het mss omdat het niet nodig is om hier een inschatting van te hebben? Mss zijn er in de domeinen in kwestie niet eens bomen van die maat, of is dit een maat die omwille van een bosbeheer-gerelateerde reden niet in de verkoop terechtkomt (bv. dunning gebeurt pas bij bomen van een bepaalde dikte)? Of mss zijn er toevallig de voorbije 8 jaar geen bomen van die maat verkocht, en moeten we wat meer geduld hebben voor de dataset volledig is? (Ik kan me voorstellen dat het zeker bij kleinere domeinen en minder voorkomende boomsoorten toch wel een tijdje kan duren vooraleer alle maten eens verkocht zijn.)

Ik weet niet of je zicht hebt op die redenen, of dat je dit kan nagaan door de juiste personen aan te spreken (of evt. gericht navragen bij enkele personen die zelf die metingen en houtverkopen coördineren voor domeinen waar het probleem zich stelt)? Het lijkt me wel relevant om eerst een zicht te hebben op de praktijk, en de noden die er hier zijn, vooraleer we gaan samenzitten om een oplossing voor dit probleem te zoeken.

leymanan commented 2 years ago

Komt dit doordat die omtrekklassen niet verkocht worden, of worden ze niet opgemeten omdat ze dit niet de moeite vinden om de kostprijs exact in te schatten, of is er nog een andere reden?

De houtverkopen staan los van de hoogtemetingen: de hoogtes waarmee we de DH-curves opstellen komen uit de beheerplanning (aangevuld met VBI) of zijn speciaal voor dit project opgemeten. De hoogtes die opgemeten werden tijdens houtverkoop werden niet betrokken, omdat die vaak niet zo nauwkeurig zijn. (En ook deels omdat we initieel de locatie/het bestand wilden betrekken bij de opmaak van de curves, en dat kan niet bij gegevens uit houtverkoop.)

Dus: ze worden wél verkocht, maar vallen buiten het bereik van de DH-curves. En dat gaat toch over ca 1/3de van de omtrekklasses die ooit verkocht werden (uitgedrukt in aantal klasses, zonder te kijken hoeveel er verkocht werd) of als je naar verkocht volume kijkt van die omtrekklasses die nu uit de boot vallen (van de afgelopen 8 jaar) gaat het over 10% (wat niet zoveel is, maar toch ...).

Probleem hierbij lijkt me vooral: .... Inderdaad, dat kan gebeuren ...

ElsLommelen commented 2 years ago

Hmm, da's wel lastig, dat die houtverkoop niet gekoppeld is aan het opmeten van bomen, of omgekeerd. Want als ik me niet vergis, was het achterliggend idee destijds dat de bomen bij een verkoop toch opgemeten werden, en de dataset (en afgeleide curves) zo langzaamaan zou uitbreiden i.f.v. de noden (dus opmeten als er nog geen schatting beschikbaar is).

De omtrekklassen die buiten het bereik van de DH-curves vallen, ik veronderstel dat je daarmee enkel omtrekklassen bedoelt die boven 0.5 m valt? (Vermits we origineel de keuze gemaakt hebben om deze buiten beschouwing te laten wegens niet relevant.) Puur praktisch: zou het een piste zijn om na te gaan welke klasses vaak verkocht worden en nog niet afgedekt worden, en deze prioritair op te meten binnen het project? (En zo stap voor stap de curves completer maken.)

Nu we het bestand toch niet betrekken bij de opmaak van de curves: in hoeverre is het een optie om deze metingen van de houtverkoop toch te betrekken waar nodig? Als ze rare patronen vertonen of heel fel afwijken van de andere metingen, gaat dit wel snel opvallen in de plot, lijkt mij, en dan gebruik je ze uiteraard beter niet. Eerder gaf je aan dat een juiste schatting bij de lage omtrekklassen toch iets minder belangrijk is, dus mss is het dan niet zo erg dat de metingen minder nauwkeurig zijn? Ze leveren in elk geval het voordeel op dat je enig idee hebt van de boomhoogte daar waar je nu helemaal niks weet. Ik weet niet of je het evt. ziet zitten om dit eens uit te testen voor 1 of enkele probleemgrafieken (de berekeningen uitvoeren zonder en met deze bijkomende meetgegevens van de boomverkoop)? Gewoon om die piste eens te verkennen en te zien wat we hieruit kunnen leren, ik ga je uiteraard nadien niet de raad geven om beide pistes voor alle domeinen en boomsoorten te doen. Op basis van je email: mss Beuk voor domein Tudor proberen, en evt. Beuk voor Liedekerkebos. Voor deze laatste zou het ook zinvol zijn om de metingen van < 0.5 m eens bij op de plot met de curve te zetten.

En daarna evt. eens samenzitten om dit verder te bekijken?

leymanan commented 2 years ago

Want als ik me niet vergis, was het achterliggend idee destijds dat de bomen bij een verkoop toch opgemeten werden, en de dataset (en afgeleide curves) zo langzaamaan zou uitbreiden i.f.v. de noden (dus opmeten als er nog geen schatting beschikbaar is).

Ja, dat was een piste, maar we wisten toen wel al dat de voorbije metingen niet konden gebruikt worden. En ondertussen zijn de boswachters bedolven onder 't werk, en is het geen optie meer om hen extra metingen te laten doen :-(

De omtrekklassen die buiten het bereik van de DH-curves vallen, ik veronderstel dat je daarmee enkel omtrekklassen bedoelt die boven 0.5 m valt? (Vermits we origineel de keuze gemaakt hebben om deze buiten beschouwing te laten wegens niet relevant.)

Toch ook deze die onder de 0.5m vallen. Deze moeten minder nauwkeurig zijn, maar is toch ook belangrijk om een schatting mee te kunnen geven.

Nu we het bestand toch niet betrekken bij de opmaak van de curves: in hoeverre is het een optie om deze metingen van de houtverkoop toch te betrekken waar nodig? Als ze rare patronen vertonen of heel fel afwijken van de andere metingen, gaat dit wel snel opvallen in de plot, lijkt mij, en dan gebruik je ze uiteraard beter niet.

Dat is ne moeilijke: ik merk dat ze vaak een dominante hoogte ingeven voor een bepaald bestand en die hoogte toekennen aan alle omtrekklasses. Ik weet ook dat ze soms uit tijdsgebrek hoogtes van de jaren daarvoor altijd weer overnemen, of van (volgens hun inschatting) gelijkaardige bestanden. Of soms lijkt het alsof ze enkel hoogte takvrije stam ingeven. De huidige verantwoordelijke voor IVANHO was net blij met de curves, omdat hij het gevoel heeft dat die metingen soms echt niet kloppen. Ik vind het moeilijk om onderscheid te maken tss goede hoogtes en andere. Als ze in dezelfde lijn liggen, is 't ok, en anders niet? Maar wat zegt dat dan echt? Kan ook per toeval OK lijken, maar in werkelijkheid totaal niet juist zijn ...

Ik zal er nog eens over nadenken. Misschien bedenk ik een manier om al een eerste schifting te maken. Bv. als omtrek/hoogteverhouding niet klopt

leymanan commented 2 years ago

Liedekerke en Tudor: geen beuk gekapt voorgaande jaren blijkbaar ...

Maar ik ga er wel eens naar kijken hoe ik eventueel toch een deel van de hoogtes uit IVANHO zou kunnen meenemen. Goede suggestie.

ElsLommelen commented 2 years ago

Ik zou zeggen: verken deze piste zeker eens eens met een aantal willekeurige voorbeelden.

Mss kunnen we uiteindelijk het package dhcurve wel inschakelen? Want vooraf al gegevens weggooien op basis van een omtrek/hoogteverhouding die niet klopt, lijkt me wat tricky als je net dit wil gaan modelleren. (Hoe maak je het verschil tussen een outlier en een slechte meting?) In dat geval gaan we beter achteraf nakijken uit welke dataset de outliers komen, lijkt mij. Of zoiets, want alle outliers uit eenzelfde dataset moet geen probleem zijn (dit wijst op minder nauwkeurige metingen, maar als dit is omwille van minder nauwkeurige apparatuur is en het gemiddelde hetzelfde blijft, is dit perfect ok). De outliers boven de curve afkomstig van de nauwkeurige dataset, en die onder de curve afkomstig van IVANHO, zou bv. wel kunnen betekenen dat de hoogte van de takvrije stam ingegeven is, dus in dit geval wil je de gegevens van IVANHO niet gebruiken.

De dominante hoogte die toegekend is aan alle omtrekklassen, is bv. iets wat je wel gemakkelijk vooraf (codematig) in de dataset van IVANHO kan testen, lijkt mij.

En een verkenning van de gegevens, evt. grafisch, gaat mogelijk nog wel wat andere problemen naar boven brengen. (En mss wil je hiervoor ook wel enkele domeinen testen waar je wel al voldoende gegevens van hebt? Dan zie je de evt. afwijkingen beter.)

Enfin, ik hoor wel als ik ergens mee kan helpen. ;-)

leymanan commented 2 years ago

Bedankt!

Wat betreft minder nauwkeurige apparatuur: dat is niet het geval, gaat gewoon over nonchalance en te weinig tijd en dan maar alles 't zelfde of ... dus je kan er echt niet van uitgaan dat gemiddelde OK is. Curves opstellen enkel obv IVANHO is zeker geen optie, aanvullen aan de uitersten kan een optie zijn. Maar het zou misschien ook een optie zijn om ipv met kwantielen te werken om het bereik te bepalen, te werken met absolute aantallen. Dan zouden de bereiken bij de grotere datasets al wat ruimer komen te liggen.

ElsLommelen commented 2 years ago

Maar het zou misschien ook een optie zijn om ipv met kwantielen te werken om het bereik te bepalen, te werken met absolute aantallen. Dan zouden de bereiken bij de grotere datasets al wat ruimer komen te liggen.

Nu je het zegt, voor de afgeleide curves is het eigenlijk helemaal niet nodig om randpunten te gaan verwijderen, hier fitten we geen curvevorm (zie hier voor de uitleg waarom we die methode gebruiken). Dus mss kunnen we ingeval van de afgeleide curves alle punten > 0.5 m meenemen? (Met aantallen werken zou ik niet doen, daar zie ik geen voordeel van, enkel het nadeel dat we er een concrete waarde op moeten gaan plakken...)

Voor het basismodel en het lokaal model gaan we dus wel de methode met de kwantielen moeten blijven gebruiken om te vermijden dat de randpunten je curve in een verkeerde richting gaan trekken. Bij deze methode vallen trouwens bij een gelijkmatige dataset in principe helemaal geen punten weg, het enige wat gebeurt, is dat er omtrekklassen wegvallen als er meerdere opeenvolgende omtrekklassen zeer weinig metingen hebben, maar dit is dus om te vermijden dat dit zou leiden tot een onbetrouwbare curvevorm.

Wat betreft minder nauwkeurige apparatuur: dat is niet het geval, gaat gewoon over nonchalance en te weinig tijd en dan maar alles 't zelfde of ... dus je kan er echt niet van uitgaan dat gemiddelde OK is.

Ik gaf maar een voorbeeld. Alles hetzelfde is gemakkelijk op te sporen, en in mijn ogen heb je hier sowieso een goed argument om de dataset niet te gebruiken. Voor de rest kan ik enkel maar aanraden om eens wat metingen te plotten, evt. samen met de andere metingen van het domein, en eens te zien of je hier verdachte patronen in ziet. Hierdoor ga je mss nog uitkomen bij zaken waar je niet spontaan aan dacht? Ik zou wel per domein of per meetploeg 'alles of niets' nemen, enkel aanvullen in bepaalde omtrekklassen of outliers uit de dataset plukken, zou ik vermijden (vooral omdat het moeilijk is om hier niet subjectief te zijn, dan kan je al bijna even goed zelf metingen gaan verzinnen :-/ ).

ElsLommelen commented 1 year ago

@leymanan Ik neem aan dat dit intussen in orde is?

leymanan commented 1 year ago

inderdaad, bedankt!