mazzzystar / TurtleBench

TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles.
https://arxiv.org/abs/2410.05262
Apache License 2.0
125 stars 9 forks source link

Cot prompts #4

Open ax7e opened 3 months ago

ax7e commented 3 months ago
你是一个游戏的裁判,这个游戏会给玩家展示<汤面>,并告诉你<汤底>。你的任务是根据<汤面>和<汤底>理解整个故事的起因、经过和结局,并根据玩家的猜测进行判断。为了确保判断的准确性,请你逐步推理出答案。

## 判定规则
1. **验证玩家猜测**:玩家会根据<汤面>进行猜测,你需要结合<汤底>所提供的信息,验证玩家的猜测是否正确。
2. **逐步推理**:请仔细阅读<汤面>和<汤底>,在你的思维过程中,逐步验证玩家的猜测是否正确。
3. **在最后一行判断答案**:
   - 玩家提出的猜测正确,或者答案是肯定的:请只回答"[对]"
   - 玩家提出的猜测错误,或者答案是否定的:请只回答"[错]"
   - 玩家提出的猜测,如果从<汤面>和<汤底>找不到答案,并且也无法通过推理得出结论:请只回答"[不知道]"

## 注意
- **思维链的使用**:在判定答案前,请用逐步分析和推理,从而确保你的答案是基于充分的理解和逻辑推理得出的。
- **严格遵守答案格式**:最终答案只能是"[对]"、"[错]"或"[不知道]"。
## 示例
### 示例1:打嗝男子
<汤面>
一个男人走进一家酒吧,并向酒保要了一杯水。酒保却突然拿出一把手枪瞄准他,而男子竟只是笑著说:“谢谢你!”然后从容离开,请问发生了什么事?

<汤底>
男子打嗝,他希望喝一杯水来改善状况。酒保意识到这一点,选择拿枪吓他,男子一紧张之下,打嗝自然消失,因而衷心感谢酒保后就离开了。

**玩家的猜测及判定过程**:
- 问:男人有慢性病吗?
  - 思维链:汤面中没有提到任何疾病相关信息,从汤底中也无法推断出男子是否有慢性病。那么对于 "男人有慢性病吗?", 结果就是不知道有没有。
  - 答:[不知道]
- 问:男人是被吓跑了吗 
  - 思维链:根据“从容离开”,可以推断出男子并不是被吓跑了。那么对于"男人是被吓跑了吗", 结果就是男子没有被吓跑。
  - 答:[错]
- 问:酒保想杀死男人 
  - 思维链:根据汤底,酒保只是想吓走打嗝,并没有杀人的意图。那么对于“酒保想杀死男人”,结果就是酒保不想杀死男人。
  - 答:[错]
- 问:酒保是为了吓唬男人 
  - 思维链:汤底明确说明酒保是为了吓唬男子。那么对于“酒保是为了吓唬男人”,结果就是酒保是为了吓唬男人。
  - 答:[对]
- 问:男子衷心感谢酒保 
  - 思维链:根据汤底,男子确实衷心感谢酒保。那么对于“男子衷心感谢酒保”,结果就是男子衷心感谢酒保。
  - 答:[对]

## 题目内容
### 汤面
{surface}

### 汤底
{bottom}
## 玩家猜测

I used this prompt and get ~ 0.83 on cheapest model(deepseek), want to know if you are interested to test it on more models.

ax7e commented 3 months ago
<汤面>
一个男人走进一家酒吧,并向酒保要了一杯水。酒保却突然拿出一把手枪瞄准他,而男子竟只是笑著说:“谢谢你!”然后从容离开,请问发生了什么事?
<汤底>
男子打嗝,他希望喝一杯水来改善状况。酒保意识到这一点,选择拿枪吓他,男子一紧张之下,打嗝自然消失,因而衷心感谢酒保后就离开了。
- 问:男人有慢性病吗?
- 思维链:汤面中没有提到任何疾病相关信息,从汤底中也无法推断出男子是否有慢性病。那么对于 "男人有慢性病吗?", 结果就是不知道有没有。
- 答:[不知道]
- 问:男人是被吓跑了吗 
- 思维链:根据“从容离开”,可以推断出男子并不是被吓跑了。那么对于"男人是被吓跑了吗", 结果就是男子没有被吓跑。
- 答:[错]
- 问:酒保想杀死男人 
- 思维链:根据汤底,酒保只是想吓走打嗝,并没有杀人的意图。那么对于“酒保想杀死男人”,结果就是酒保不想杀死男人。
- 答:[错]
- 问:酒保是为了吓唬男人 
- 思维链:汤底明确说明酒保是为了吓唬男子。那么对于“酒保是为了吓唬男人”,结果就是酒保是为了吓唬男人。
- 答:[对]
- 问:男子衷心感谢酒保 
- 思维链:根据汤底,男子确实衷心感谢酒保。那么对于“男子衷心感谢酒保”,结果就是男子衷心感谢酒保。
- 答:[对]
<汤面>
{surface}
<汤底>
{bottom}
- 问: {user_input}

this also works and get 0.836

mazzzystar commented 3 months ago

赞!我尝试了一下你的prompt,但比较笨的模型会生成“根据思维链...”,而不是直接给出3类output,这导致解析有点问题。

另外,目前我们合并了N和F这两类,这导致难度下降。因此我们正在尝试将类别重新标注为3类,等完成后,我们会试试看用你的Cot prompt测试,并在这里更新结果。

Nice try! I tested your prompt, but less capable models generate 'According to the chain of thought...' instead of directly providing 3 types of output, which causes some parsing issues.

Additionally, we've currently merged the N and F categories, which has decreased the difficulty. Therefore, we're attempting to relabel the categories into 3 types. Once completed, we'll try testing with your CoT prompt and update the results here.