RUCKBReasoning / RESDSQL

The Pytorch implementation of RESDSQL (AAAI 2023).
https://arxiv.org/abs/2302.05965
MIT License
245 stars 58 forks source link

CSpider 训练bash好像有错误,同时不完整 #37

Closed Promise-Lv closed 1 year ago

Promise-Lv commented 1 year ago

./scripts/train/cspider_text2natsql/generate_text2natsql_dataset.sh 里面存在如下两个问题(相同情况在 cspider_text2sql也有):

  1. line 4, text2sql_data_generator.py 的 input_dataset_path 应为带有列、表概率的 train_cspider_with_probs_natsql.json;
  2. 缺少对训练数据运行schema_item_classifier.py,写在line 4的 preprocessed_train_cspider_natsql.json 是该模型的输入才对。
lihaoyang-ruc commented 1 year ago

因为对于训练数据我们已经知道每条数据的目标SQL,所以我们直接抽取出来目标SQL使用的表和列就行,不需要在训练集上跑schema item classifier。

text2sql_data_generator.py中的generate_train_ranked_dataset函数负责做这件事。

Promise-Lv commented 1 year ago

非常感谢您的解答!