SpursGoZmy / Tabular-LLM

本项目旨在收集开源的表格智能任务数据集(比如表格问答、表格-文本生成等),将原始数据整理为指令微调格式的数据并微调LLM,进而增强LLM对于表格数据的理解,最终构建出专门面向表格智能任务的大型语言模型。
411 stars 34 forks source link

中文表格数据集? #3

Open ma-biao opened 11 months ago

ma-biao commented 11 months ago

数据集收集中的中文表格数据集目前就NL2SQL一个,还有其他中文的数据集吗?

SpursGoZmy commented 11 months ago

中文的表格问答数据集确实比较少,NL2SQL其实也是Text2SQL数据集,我是通过执行SQL语句的方式把答案提取出来的。除了NL2SQL,还有一些中文(多轮)Text2SQL数据集,比如DuSQLCHASECspider等,可以采用类似的方式,执行SQL语句提取出问题的答案。

但是这种做法的缺点是无法获得推理答案的中间过程,只有【最终答案】作为期望输出,不利于教会模型推理。一个可能的解决方案是借助ChatGPT补充中间的推理过程,也就是把表格、问题和提取出的答案交给ChatGPT,额外撰写指令让它生成推理答案的具体步骤,然后再把【中间过程和最终答案】一起作为期望输出,训练模型的效果应该会好一些。