对第二篇论文中有些不明白的地方请教解惑

首先是论文第三页公式(1)第一行等号右边的分母是不是写错了，是否应该是 $exp(r_{\psi}(x,yc)) + exp(r{\psi}(x,y_r))$ ?
我大概明白了做MetaRM的目的是什么，您看我这样表述是否正确：也就是说初始的RM是根据SFT生成的回答拿去给人打分，其中大部分的问题都集中在靠近正态分布的左边（坏）或者右边（好），而我们只判断这个分布下的好坏，打分模型也只能在这个分布给出的回答判断好坏即靠近分布中心的左边还是右边，而当我们的大模型经过PPO后，其整体生成的回答的分布会逐渐往右靠（变好），而由于原来的打分模型只能判断原来分布下的好坏，而对诸如“比较好”，“好”与，“非常好”是不好分辨的，如果极端一点比如我现在经过PPO的大模型走了一大步，它生成的新的回答的分布中心非常靠右，几乎所有回答都是原来模型分布中心右侧，那这个时候原来的RM就无法给这些新模型生成的在原来的意义下"比较好"，“好”以及"非常好"的回答打分了。
MetaRM这个梯度上升增加区分度的做法来使打分模型靠近新的分布的做法我想了一会儿才想通，感觉挺有意思的，这个是常见做法吗？可能是我孤陋寡闻了。
我还在想的问题是这个MetaRM是否能够一直使用，因为在我之前的想法如果发生了迭代导致RM无法分辨新新的回答的情况下，我可能就会对当前模型做新的采样然后拿去人工注释生成一个新RM了，使用MetaRM是否能完全抵消去使用新RM呢？
“When putting reinforcement learning in the realm of large language models, the environment distribution and the output distribution of the policy model π RL(y|x) are identical. It means that the distribution of the environment shifts as π RL(y|x) is optimized.”这句话我有点没看懂，在RLFH中，SFT模型是那个agent，那environment不是应当指代的是reword model吗，这里的environment distribution好像是指的SFT模型的生成的回答的分布（如果我没有理解错的话），那这个不是应该叫做action distribution吗？

OpenLMLab / MOSS-RLHF

对第二篇论文中有些不明白的地方请教解惑 #53