CSpider 训练bash好像有错误，同时不完整

RUCKBReasoning / RESDSQL

The Pytorch implementation of RESDSQL (AAAI 2023).

https://arxiv.org/abs/2302.05965

MIT License

245 stars 58 forks source link

Closed Promise-Lv closed 1 year ago

Promise-Lv commented 1 year ago

./scripts/train/cspider_text2natsql/generate_text2natsql_dataset.sh 里面存在如下两个问题（相同情况在 cspider_text2sql也有）：

line 4, text2sql_data_generator.py 的 input_dataset_path 应为带有列、表概率的 train_cspider_with_probs_natsql.json；
缺少对训练数据运行schema_item_classifier.py，写在line 4的 preprocessed_train_cspider_natsql.json 是该模型的输入才对。

lihaoyang-ruc commented 1 year ago

因为对于训练数据我们已经知道每条数据的目标SQL，所以我们直接抽取出来目标SQL使用的表和列就行，不需要在训练集上跑schema item classifier。

text2sql_data_generator.py中的generate_train_ranked_dataset函数负责做这件事。

Promise-Lv commented 1 year ago

非常感谢您的解答！