对于重复score答案样本的处理疑问

yanhan19940405 commented 1 year ago

您好，根据您的理论体系，利用您论文里面的prompt，通过chatgpt对[Query，anwser_list]中的6组anwser排序的时候，发现存在score重复的样本，请问对于这样的样本怎么处理合适呢？还是可以加入训练？

样本示例 {"query": "如何选择新闻立意角度？", "responses": ["选择新闻立意角度有以下几种方法：\n 一是紧扣党和政府的路线、方针、政策。选择新闻立意角度要做到人无我有，人有我新，人新我特，人特我巧。但立意角度不是哗众取宠的噱头，选择新闻立意角度首先要把握好党和国家的路线、方针、政策，记者在选择新闻立意角度时不能为了追求新意而偏离这条路线。\n 二是符合媒体的定位。不同的媒体定位决定了新闻立意的不同角度。尽管同一个新闻源，受众不同，需求不同，新闻角度的选择就自然有别。不同的媒介对同一新闻源会按照自己的价值和市场定位取其能满足自己形象或者社会期待的信息进行选择和建构，从而实现自己的办报构想和理念。即按照自己的办报模式去建构自己的新闻角度，使新闻在质上体现自己的办报风格和社会定位。读者也会因此形成对这种角度的常规辨认，一看就知道是什么类型的报而不是其他。\n 三是紧扣新闻价值。“角度选择是否得当与新闻价值大小直接相关”，选择新闻立意角度是为了更好地挖掘新闻价值。新闻价值要素存在于构成新闻的事实之中，它不容主观人为地拔高、添加，但在不同的新闻传播者面前，有的新闻价值就能较好地体现、发掘出来，而有的新闻价值却被淹没在汪洋大海、垃圾瓦砾之中。要使自己的新闻作品更有深度，更具新闻价值，这就需要记者看问题不能仅仅停留在表层上，而应该精心选择最佳立意角度，报道真实、揭示本质、描绘趋势，从而获取更大的新闻价值。\n 四是紧扣受众，关注百姓利益。角度取决于深度，没有深入生活是无法充分发掘新闻价值的。新闻价值中一个重要的要素是接近性，具有接近性特质的新闻，最容易获得受众青睐。因此，从最能接近百姓利益这一点入手，报道无疑可以获得最佳视角。", "选择新闻立意角度需要考虑以下几点：\n\n1. 新闻价值：选择新闻时，需要考虑它的新闻价值，即新闻的重要性、关联性和独特性，这将有助于您选择一个令人感兴趣的立意角度。\n\n2. 探究问题：新闻应该涵盖重要的问题、趋势和事件，如果您能够探究问题并解决读者的疑惑，那么您的立意角度就能得到更好的发挥。\n\n3. 突出亮点：新闻立意角度应该突出新闻中的亮点，可以涉及到新闻的情感、人物、故事背景等方面，从而吸引读者的眼球。\n\n4. 考虑读者：在选择新闻立意角度时，需要考虑到自己的受众，以确保自己的文章能够引起读者的兴趣和共鸣。\n\n5. 参考其他新闻：了解其他媒体将同样事件的立意角度是什么，这将有助于您避免与其他媒体重复，同时以一种独特的方式报道新闻。", " 新闻立意角度的选择要从新闻事件本身出发，从新闻事件的性质、新闻事件的题材、新闻事件的主题、新闻事件的主题性、新闻事件的背景等几个方面出发，分析新闻事件的性质、题材、主题、主题性、背景等，并结合新闻事件的背景、新闻事件的主题性、新闻事件的主题、新闻事件的题材、新闻事件的性质等多个因素，从而选择新闻立意角度。", " 新闻立意角度的选择，要根据新闻的主题、新闻背景、新闻素材的特点，确定报道的立意方向。", " 新闻立意角度的选择要考虑新闻的主题，要考虑新闻的性质，要考虑新闻的对象，要考虑新闻的受众。", " 新闻立意角度的选择，要根据新闻事件本身的性质、特点，以及受众需求，从客观实际出发，确定报道的立意方向。立意角度的选择，必须符合受众的需求，符合客观实际，符合新闻规律。"], "scores": [0.96, 0.82, 0.72, 0.74, 0.78, 0.78]}

yanhan19940405 commented 1 year ago

最后两个评分0.78是重复的

GanjinZero commented 1 year ago

你不管他就行了，他只要能和比他分高的和分低的比就行

yanhan19940405 commented 1 year ago

但是有很多[Query，anwser_list]存在这样的情况，这样的话是否会导致模型训练不出差异性的情况呢？目前我的六组答案，分别按照human、chatgpt、模型随机采样四轮的思路来构建的，而您的prompt仍然存在重复现象，我就想怎么剔除这样的样本呢

GanjinZero commented 1 year ago

你可以改一下loss；如果得分相同，不算loss就行？

Akiraxty commented 1 year ago

你好，我这边用自己的模型进行sft之后是使用rrhf，但是效果没变甚至生成的文本更差。有几个问题想咨询一下：1. 这个"scores"是否对范围有要求，比如"scores": [1, 2, 3, 4, 5]} 是否需要归一化至0-1之间。2. responses的个数需要固定吗？比如有的样本有3个responses，有的为6个responses。感谢解答

yanhan19940405 commented 1 year ago

没有关系，只要分数有区分就可以了

---原始邮件--- 发件人: @.> 发送时间: 2023年6月27日(周二) 下午2:37 收件人: @.>; 抄送: @.**@.>; 主题: Re: [GanjinZero/RRHF] 对于重复score答案样本的处理疑问 (Issue #25)

你好，有几个问题想咨询一下：1. 这个"scores"是否对范围有要求，比如"scores": [1, 2, 3, 4, 5]} 是否需要归一化至0-1之间。2. responses的个数需要固定吗？比如有的样本有3个responses，有的为6个responses。感谢解答

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

GanjinZero commented 1 year ago

你好，我这边用自己的模型进行sft之后是使用rrhf，但是效果没变甚至生成的文本更差。有几个问题想咨询一下：1. 这个"scores"是否对范围有要求，比如"scores": [1, 2, 3, 4, 5]} 是否需要归一化至0-1之间。2. responses的个数需要固定吗？比如有的样本有3个responses，有的为6个responses。感谢解答

没有范围要求
不用固定
也许你可以试着删掉最低质量的response试试

GanjinZero / RRHF

对于重复score答案样本的处理疑问 #25