wuyike2000 / Retrieve-Rewrite-Answer

53 stars 13 forks source link

有关生成的训练数据的问题 #8

Closed hjs2027864933 closed 4 months ago

hjs2027864933 commented 5 months ago

question ques2

我在查看训练数据时,发现存在这个question的生成的数据存在6000+条,但是我发现这个问题对应的子图只有一个,所以是不是生成的数据出现了问题,我是否需要删除掉这个question的那些多余的训练数据。

hjs2027864933 commented 4 months ago

请问可以帮我解决一下这个问题吗。

wuyike2000 commented 4 months ago

这个问题是比较最值问题,因此对应的子图会很多。可以直接跳过这种问题。

hjs2027864933 commented 4 months ago

这个问题是比较最值问题,因此对应的子图会很多。可以直接跳过这种问题。

谢谢你的回复,是的,但是我观察发现WQSP/processed_data/final/train.json 中这个question的graph只有一个,是省略了其他的吗。还有就是其他question也存在WQSP/processed_data/final/train.json 中的graph数量少于这个question在train.txt中使用的graph数量,也就是说train.txt中许多question使用了不存在于train.json中的graph来组成训练数据。这里训练数据似乎无法得到正确的answer。这是正常的吗,还是说我需要删除train.txt中没有使用train.json中的graph得到的训练数据。

wuyike2000 commented 4 months ago

正常的。因为比较最值类问题只有一个子图包含正确答案。用不用都可以。