Open ax7e opened 3 months ago
<汤面>
一个男人走进一家酒吧,并向酒保要了一杯水。酒保却突然拿出一把手枪瞄准他,而男子竟只是笑著说:“谢谢你!”然后从容离开,请问发生了什么事?
<汤底>
男子打嗝,他希望喝一杯水来改善状况。酒保意识到这一点,选择拿枪吓他,男子一紧张之下,打嗝自然消失,因而衷心感谢酒保后就离开了。
- 问:男人有慢性病吗?
- 思维链:汤面中没有提到任何疾病相关信息,从汤底中也无法推断出男子是否有慢性病。那么对于 "男人有慢性病吗?", 结果就是不知道有没有。
- 答:[不知道]
- 问:男人是被吓跑了吗
- 思维链:根据“从容离开”,可以推断出男子并不是被吓跑了。那么对于"男人是被吓跑了吗", 结果就是男子没有被吓跑。
- 答:[错]
- 问:酒保想杀死男人
- 思维链:根据汤底,酒保只是想吓走打嗝,并没有杀人的意图。那么对于“酒保想杀死男人”,结果就是酒保不想杀死男人。
- 答:[错]
- 问:酒保是为了吓唬男人
- 思维链:汤底明确说明酒保是为了吓唬男子。那么对于“酒保是为了吓唬男人”,结果就是酒保是为了吓唬男人。
- 答:[对]
- 问:男子衷心感谢酒保
- 思维链:根据汤底,男子确实衷心感谢酒保。那么对于“男子衷心感谢酒保”,结果就是男子衷心感谢酒保。
- 答:[对]
<汤面>
{surface}
<汤底>
{bottom}
- 问: {user_input}
this also works and get 0.836
赞!我尝试了一下你的prompt,但比较笨的模型会生成“根据思维链...”,而不是直接给出3类output,这导致解析有点问题。
另外,目前我们合并了N和F这两类,这导致难度下降。因此我们正在尝试将类别重新标注为3类,等完成后,我们会试试看用你的Cot prompt测试,并在这里更新结果。
Nice try! I tested your prompt, but less capable models generate 'According to the chain of thought...' instead of directly providing 3 types of output, which causes some parsing issues.
Additionally, we've currently merged the N and F categories, which has decreased the difficulty. Therefore, we're attempting to relabel the categories into 3 types. Once completed, we'll try testing with your CoT prompt and update the results here.
I used this prompt and get ~ 0.83 on cheapest model(deepseek), want to know if you are interested to test it on more models.