BIRD数据集相关问题

AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.

MIT License

1.1k stars 178 forks source link

@steph730 非常感谢您关注我们的工作。首先请下载我们最新的数据。请您仔细检查错误类型并关注输出的SQL中是否存在大量拼写错误，例如 “SELECT100”，同时注意诸如 "Charter School (Y/N)" 这类带有空格的字段是否被反引号（`）包围。可以通过后处理来解决这类拼写错误问题，或者在导入数据库数据进prompt时，使用规则对带有空格或关键字重复（order`）的字段进行预处理。此外，不同模型会有自己擅长的prompt，请按照sqlcoder的演示案例进行prompt设计和分析。若对所有SQL都进行了类似处理，但结果仍然较低，则可能表明该模型在BIRD上的ICL能力需要改进。BIRD的数据库约束较diverse和difficult（多个column组合的pk或者fk），问题难度较大（需要对value和知识有深入理解），此外，我们的数据集（尤其是开发集和测试集）从未暴露给任何模型的预训练过程。因此，观察到模型的zero-shot ICL效果不佳是可以理解的。

近期，我们也在积极评估一些受关注的开源模型，如Codellama、starcoder和sqlcoder。再次感谢您的建议。一旦我们完成，我们会第一时间更新到leaderboard上，谢谢。

@steph730 非常感谢您关注我们的工作。首先请下载我们最新的数据。请您仔细检查错误类型并关注输出的SQL中是否存在大量拼写错误，例如 “SELECT100”，同时注意诸如 "Charter School (Y/N)" 这类带有空格的字段是否被反引号（`）包围。可以通过后处理来解决这类拼写错误问题，或者在导入数据库数据进prompt时，使用规则对带有空格或关键字重复（order`）的字段进行预处理。此外，不同模型会有自己擅长的prompt，请按照sqlcoder的演示案例进行prompt设计和分析。若对所有SQL都进行了类似处理，但结果仍然较低，则可能表明该模型在BIRD上的ICL能力需要改进。BIRD的数据库约束较diverse和difficult（多个column组合的pk或者fk），问题难度较大（需要对value和知识有深入理解），此外，我们的数据集（尤其是开发集和测试集）从未暴露给任何模型的预训练过程。因此，观察到模型的zero-shot ICL效果不佳是可以理解的。

近期，我们也在积极评估一些受关注的开源模型，如Codellama、starcoder和sqlcoder。再次感谢您的建议。一旦我们完成，我们会第一时间更新到leaderboard上，谢谢好的

@steph730 非常感谢您关注我们的工作。首先请下载我们最新的数据。请您仔细检查错误类型并关注输出的SQL中是否存在大量拼写错误，例如 “SELECT100”，同时注意诸如 "Charter School (Y/N)" 这类带有空格的字段是否被反引号（`）包围。可以通过后处理来解决这类拼写错误问题，或者在导入数据库数据进prompt时，使用规则对带有空格或关键字重复（order`）的字段进行预处理。此外，不同模型会有自己擅长的prompt，请按照sqlcoder的演示案例进行prompt设计和分析。若对所有SQL都进行了类似处理，但结果仍然较低，则可能表明该模型在BIRD上的ICL能力需要改进。BIRD的数据库约束较diverse和difficult（多个column组合的pk或者fk），问题难度较大（需要对value和知识有深入理解），此外，我们的数据集（尤其是开发集和测试集）从未暴露给任何模型的预训练过程。因此，观察到模型的zero-shot ICL效果不佳是可以理解的。

近期，我们也在积极评估一些受关注的开源模型，如Codellama、starcoder和sqlcoder。再次感谢您的建议。一旦我们完成，我们会第一时间更新到leaderboard上，谢谢。

好的谢谢！再有请问一下我看sqlcoder是针对postgresql进行优化的，而bird是sqlite数据库，这个对于结果会有很大影响嘛

AlibabaResearch / DAMO-ConvAI

BIRD数据集相关问题 #72