taolusi / chisp

scripts and baselines for CSpider: Chinese semantic parsing and text-to-SQL challenge
https://taolusi.github.io/CSpider-explorer/
162 stars 18 forks source link

关于CSpider数据集的table value值的翻译问题 #4

Closed jaredwei01 closed 4 years ago

jaredwei01 commented 4 years ago

感谢作者提供了对Spider数据集如此优秀的中文翻译! 我对经由https://drive.google.com/drive/folders/1TxCUq1ydPuBdDdHF3MkHT-8zixluQuLa?usp=sharing 链接下载到的数据有一点疑问,希望作者帮忙解答一下:

  1. database子目录中.sqlite文件打开后,其数据库表value内容(非库名、表名、列名等schema信息)依然是英文描述,似乎与原Spider的database并无二致;但是作者的论文中提出value已经翻译成了中文;
  2. train.json中_SELECT name FROM head WHERE born_state != '浙江'_等类似的示例与原有Spider数据集不符(原有数据集为英文地名,人工翻译似乎也不会出现“浙江”这类地名),辛苦作者帮忙解释一下此类翻译的原则; 谢谢!

附图1. image

附图2. image

taolusi commented 4 years ago

感谢作者提供了对Spider数据集如此优秀的中文翻译! 我对经由https://drive.google.com/drive/folders/1TxCUq1ydPuBdDdHF3MkHT-8zixluQuLa?usp=sharing 链接下载到的数据有一点疑问,希望作者帮忙解答一下:

1. database子目录中.sqlite文件打开后,其数据库表value内容(非库名、表名、列名等schema信息)依然是英文描述,似乎与原Spider的database并无二致;但是作者的论文中提出value已经翻译成了中文;

2. train.json中_SELECT name FROM head WHERE born_state != '浙江'_等类似的示例与原有Spider数据集不符(原有数据集为英文地名,人工翻译似乎也不会出现“浙江”这类地名),辛苦作者帮忙解释一下此类翻译的原则;
   谢谢!

附图1. image

附图2. image

我们在论文中描述的是保留了schema中表名和列名的信息,而更改了value的信息,和您观察到的是一致的。这么做的原因是在中文的数据库中列名和表名往往都是英文的,而具体的值可能是中文的,这样更贴近实际的情况,我们也和微软的同学交流过这种翻译,应该是合理的,如果在您的实际应用中,数据库的表示并非这样,非常欢迎告知我们,进一步交流。

jaredwei01 commented 4 years ago

感谢作者提供了对Spider数据集如此优秀的中文翻译! 我对经由https://drive.google.com/drive/folders/1TxCUq1ydPuBdDdHF3MkHT-8zixluQuLa?usp=sharing 链接下载到的数据有一点疑问,希望作者帮忙解答一下:

1. database子目录中.sqlite文件打开后,其数据库表value内容(非库名、表名、列名等schema信息)依然是英文描述,似乎与原Spider的database并无二致;但是作者的论文中提出value已经翻译成了中文;

2. train.json中_SELECT name FROM head WHERE born_state != '浙江'_等类似的示例与原有Spider数据集不符(原有数据集为英文地名,人工翻译似乎也不会出现“浙江”这类地名),辛苦作者帮忙解释一下此类翻译的原则;
   谢谢!

附图1. image 附图2. image

我们在论文中描述的是保留了schema中表名和列名的信息,而更改了value的信息,和您观察到的是一致的。这么做的原因是在中文的数据库中列名和表名往往都是英文的,而具体的值可能是中文的,这样更贴近实际的情况,我们也和微软的同学交流过这种翻译,应该是合理的,如果在您的实际应用中,数据库的表示并非这样,非常欢迎告知我们,进一步交流。

谢谢您对第二个问题的回答。 关于第一个问题,我依照链接下载的cspider中数据库表(database目录)的具体值依然是英文value,并不是翻译后的中文字段(如department_management库的head表),请问这是什么原因呢?

taolusi commented 4 years ago

感谢作者提供了对Spider数据集如此优秀的中文翻译! 我对经由https://drive.google.com/drive/folders/1TxCUq1ydPuBdDdHF3MkHT-8zixluQuLa?usp=sharing 链接下载到的数据有一点疑问,希望作者帮忙解答一下:

1. database子目录中.sqlite文件打开后,其数据库表value内容(非库名、表名、列名等schema信息)依然是英文描述,似乎与原Spider的database并无二致;但是作者的论文中提出value已经翻译成了中文;

2. train.json中_SELECT name FROM head WHERE born_state != '浙江'_等类似的示例与原有Spider数据集不符(原有数据集为英文地名,人工翻译似乎也不会出现“浙江”这类地名),辛苦作者帮忙解释一下此类翻译的原则;
   谢谢!

附图1. image 附图2. image

我们在论文中描述的是保留了schema中表名和列名的信息,而更改了value的信息,和您观察到的是一致的。这么做的原因是在中文的数据库中列名和表名往往都是英文的,而具体的值可能是中文的,这样更贴近实际的情况,我们也和微软的同学交流过这种翻译,应该是合理的,如果在您的实际应用中,数据库的表示并非这样,非常欢迎告知我们,进一步交流。

谢谢您对第二个问题的回答。 关于第一个问题,我依照链接下载的cspider中数据库表(database目录)的具体值依然是英文value,并不是翻译后的中文字段(如department_management库的head表),请问这是什么原因呢?

由于在这个任务中,在评价的时候并不牵扯对SQl语句的value进行评价,我们也没有在模型中利用这些value,但是question中的相关的value会进行编码,因此我们目前还没有对数据库中的value进行翻译,而只翻译了question中的value。

jaredwei01 commented 4 years ago

明白 谢谢!