Cot prompts - Githubissues

ax7e commented 3 months ago

你是一个游戏的裁判，这个游戏会给玩家展示<汤面>，并告诉你<汤底>。你的任务是根据<汤面>和<汤底>理解整个故事的起因、经过和结局，并根据玩家的猜测进行判断。为了确保判断的准确性，请你逐步推理出答案。

## 判定规则
1. **验证玩家猜测**：玩家会根据<汤面>进行猜测，你需要结合<汤底>所提供的信息，验证玩家的猜测是否正确。
2. **逐步推理**：请仔细阅读<汤面>和<汤底>，在你的思维过程中，逐步验证玩家的猜测是否正确。
3. **在最后一行判断答案**：
   - 玩家提出的猜测正确，或者答案是肯定的：请只回答"[对]"
   - 玩家提出的猜测错误，或者答案是否定的：请只回答"[错]"
   - 玩家提出的猜测，如果从<汤面>和<汤底>找不到答案，并且也无法通过推理得出结论：请只回答"[不知道]"

## 注意
- **思维链的使用**：在判定答案前，请用逐步分析和推理，从而确保你的答案是基于充分的理解和逻辑推理得出的。
- **严格遵守答案格式**：最终答案只能是"[对]"、"[错]"或"[不知道]"。
## 示例
### 示例1：打嗝男子
<汤面>
一个男人走进一家酒吧，并向酒保要了一杯水。酒保却突然拿出一把手枪瞄准他，而男子竟只是笑著说：“谢谢你！”然后从容离开，请问发生了什么事？

<汤底>
男子打嗝，他希望喝一杯水来改善状况。酒保意识到这一点，选择拿枪吓他，男子一紧张之下，打嗝自然消失，因而衷心感谢酒保后就离开了。

**玩家的猜测及判定过程**：
- 问：男人有慢性病吗？
  - 思维链：汤面中没有提到任何疾病相关信息，从汤底中也无法推断出男子是否有慢性病。那么对于 "男人有慢性病吗？", 结果就是不知道有没有。
  - 答：[不知道]
- 问：男人是被吓跑了吗 
  - 思维链：根据“从容离开”，可以推断出男子并不是被吓跑了。那么对于"男人是被吓跑了吗", 结果就是男子没有被吓跑。
  - 答：[错]
- 问：酒保想杀死男人 
  - 思维链：根据汤底，酒保只是想吓走打嗝，并没有杀人的意图。那么对于“酒保想杀死男人”，结果就是酒保不想杀死男人。
  - 答：[错]
- 问：酒保是为了吓唬男人 
  - 思维链：汤底明确说明酒保是为了吓唬男子。那么对于“酒保是为了吓唬男人”，结果就是酒保是为了吓唬男人。
  - 答：[对]
- 问：男子衷心感谢酒保 
  - 思维链：根据汤底，男子确实衷心感谢酒保。那么对于“男子衷心感谢酒保”，结果就是男子衷心感谢酒保。
  - 答：[对]

## 题目内容
### 汤面
{surface}

### 汤底
{bottom}
## 玩家猜测

I used this prompt and get ~ 0.83 on cheapest model(deepseek), want to know if you are interested to test it on more models.

ax7e commented 3 months ago

<汤面>
一个男人走进一家酒吧，并向酒保要了一杯水。酒保却突然拿出一把手枪瞄准他，而男子竟只是笑著说：“谢谢你！”然后从容离开，请问发生了什么事？
<汤底>
男子打嗝，他希望喝一杯水来改善状况。酒保意识到这一点，选择拿枪吓他，男子一紧张之下，打嗝自然消失，因而衷心感谢酒保后就离开了。
- 问：男人有慢性病吗？
- 思维链：汤面中没有提到任何疾病相关信息，从汤底中也无法推断出男子是否有慢性病。那么对于 "男人有慢性病吗？", 结果就是不知道有没有。
- 答：[不知道]
- 问：男人是被吓跑了吗 
- 思维链：根据“从容离开”，可以推断出男子并不是被吓跑了。那么对于"男人是被吓跑了吗", 结果就是男子没有被吓跑。
- 答：[错]
- 问：酒保想杀死男人 
- 思维链：根据汤底，酒保只是想吓走打嗝，并没有杀人的意图。那么对于“酒保想杀死男人”，结果就是酒保不想杀死男人。
- 答：[错]
- 问：酒保是为了吓唬男人 
- 思维链：汤底明确说明酒保是为了吓唬男子。那么对于“酒保是为了吓唬男人”，结果就是酒保是为了吓唬男人。
- 答：[对]
- 问：男子衷心感谢酒保 
- 思维链：根据汤底，男子确实衷心感谢酒保。那么对于“男子衷心感谢酒保”，结果就是男子衷心感谢酒保。
- 答：[对]
<汤面>
{surface}
<汤底>
{bottom}
- 问: {user_input}

this also works and get 0.836

mazzzystar commented 3 months ago

赞！我尝试了一下你的prompt，但比较笨的模型会生成“根据思维链...”，而不是直接给出3类output，这导致解析有点问题。

另外，目前我们合并了N和F这两类，这导致难度下降。因此我们正在尝试将类别重新标注为3类，等完成后，我们会试试看用你的Cot prompt测试，并在这里更新结果。

Nice try! I tested your prompt, but less capable models generate 'According to the chain of thought...' instead of directly providing 3 types of output, which causes some parsing issues.

Additionally, we've currently merged the N and F categories, which has decreased the difficulty. Therefore, we're attempting to relabel the categories into 3 types. Once completed, we'll try testing with your CoT prompt and update the results here.

mazzzystar / TurtleBench

Cot prompts #4