feat: use observed samples when branching factor is 0

Use the next state from each observed transition (s,a,r,s) in losses.actor_model_aware_loss if config["branching_factor"] is set to 0.

I've run the following command to check that everything runs as intended

mapo --run MAPO --env Navigation-v0  --branching-factor 0 --use-true-dynamics --config-actor-net actor-1024-relu.json --config-critic-net critic-1024-relu.json --actor-lr 1e-4 --critic-lr 1e-4 --sample-batch-size 1 --train-batch-size 2048 --num-samples 4 --name nav0-mapo-true-dynamics-fcnet-1024

Closes #74

thiagopbueno / model-aware-policy-optimization

feat: use observed samples when branching factor is 0 #75