hkust-nlp / AgentBoard

An Analytical Evaluation Board of Multi-turn LLM Agents
219 stars 22 forks source link

pddl和jericho的check valid action可能有bug #10

Open Fu-Dayuan opened 3 months ago

Fu-Dayuan commented 3 months ago
image

pddl和jericho的check valid action好像无法确保一致性。可能导致最终结果出现较大偏差(有些case能pr能差0.5个点) 如图,前面的action一样的情况下这里给出可执行行动的顺序不一样 我根据warning设置了export TOKENIZERS_PARALLELISM=false,这需要修改吗?或者怎么能解决这种不一致呢?

Fu-Dayuan commented 3 months ago
image

检查了一下大概是因为agentboard/environment/pddl_env/pddlgym/spaces.py里面是按照set存储点所以返回的顺序随机

image

也就是说只要把agentboard/environment/pddl_env/pddl_env.py上图所示位置在返回之前先sort一下应该就能保证一致性了?

Fu-Dayuan commented 3 months ago

jericho我猜同理