Read how they benchmark in PLR article / Decide what we should print for plots

I dette eksempel med en, der er med i en generalization konkurrence i procgen, bruges mean reward som en metrik: https://github.com/wkwan/procgen også her: https://medium.com/@classyconditioning182/procgen-benchmark-rl-generalization-6d812612086a - så det virker til, at det er ret vigtigt.

I Prioritized Level Replay-paperet bruger de generelt en metrics, der hedder:

"Mean Normalized Test Returns" - tror jeg har fundet en beskrivelse af det her fra dette (https://cdn.openai.com/procgen.pdf) paper, men er ikke helt sikker:
"Mean Generalization Gap" Jeg tror ikke den er så relevant - den virker mest relevant, hvis man kan træne på sindssyg hardware.

Derudover kigger de også på noget, der hedder Normalized Test Returns (%), som jeg ikke helt ved hvad er - ud fra værdierne er det i hvert fald ikke mean normalized test returns.

Fandt denne beskrrivelse i PLR-paperet: "Normalized test returns per run are computed by dividing the average test return per run for each environment by the corresponding average test return of the uniform-sampling baseline over all runs. We then report the means and standard deviations of normalized test returns aggregated across runs"

Gylling / DeepLearning

Read how they benchmark in PLR article / Decide what we should print for plots #14