Full Roboschool benchmark

Feature / Fix

Expand roboschool environments to all (humanoids are separate) and rerun all benchmark

Env. \ Alg.	A2C (GAE)	A2C (n-step)	PPO	SAC
RoboschoolAnt graph	1029.51 graph	1148.76 graph	1931.35 graph	2903.32 graph
RoboschoolAtlasForwardWalk graph	68.15 graph	73.46 graph	148.81 graph	942.39 graph
RoboschoolHalfCheetah graph	895.24 graph	409.59 graph	1838.69 graph	2350.94 graph
RoboschoolHopper graph	286.67 graph	-187.91 graph	2079.22 graph	1826.50 graph
RoboschoolInvertedDoublePendulum graph	1769.74 graph	486.76 graph	7967.03 graph	6664.53 graph
RoboschoolInvertedPendulum graph	1000.0 graph	997.54 graph	930.29 graph	955.16 graph
RoboschoolInvertedPendulumSwingup graph	1000.0 graph	997.54 graph	930.29 graph	958.29 graph
RoboschoolReacher graph	14.57 graph	-6.18 graph	19.18 graph	19.73 graph
RoboschoolWalker2d graph	413.26 graph	141.83 graph	1368.25 graph	1982.05 graph