Finalize training loop - Githubissues

Removed reward model from trainer (now just reward function, passed during construction)
Moved trainer methods like setup_model and setup_optimizer, etc. to base class
Removed pipeline from trainer (pipeline now just passed in train method)
Wrapped promps stat tracker config into DDPO (it is DDPO specific)
Change default config passed to trainer into drlx config
Added default values to all subconfigs in DRLX config
Device for VAE needs to be figured out?
Fix from_cfg in configs
fix from_dict in configs
added a default configs
moved prompt pipeline into pipeline/init.py
added pick a pic safe pipeline (sfw cleaning done by @Serena1223 )

CarperAI / DRLX