What does this PR do ?

Enable multiple validation datasets for reward model training. Metrics are computed individually on each dataset, and logged in separate wandb tabs.

Usage

You can add validation sets as new keys in data_prefix. These keys should start with "validation" to be taken into account as an optional validation set.

python examples/nlp/gpt/train_reward_model.py model.data.data_prefix={train: ["path_to_train_set"], validation: ["path_to_validation_set"], validation_optional: ["path_to_other_validation_set"], test: ["path_to_test_set"]}

NVIDIA / NeMo-Aligner

Ea/multiple validation sets #184

What does this PR do ?

Usage