fgenie / rims_minimal

시작이 절반이고 마무리 또한 절반이다.
0 stars 1 forks source link

[bug] OCW: is_equiv_ocw() 가 제대로 동작하지 않음 #28

Closed fgenie closed 8 months ago

fgenie commented 8 months ago

분명 맞는 답이 없는게 아닌데 모든 evaluation이 0으로 뜸 is_equiv_ocw() 랑 get_concordant_answer() 에서 ocw 사용시에 어떻게 되고 있는걸까?

ocw_eval_script_n_chatgpt_baseline.zip


(MATH) is_equiv() 는 잘 되고 있는걸까?

fgenie commented 8 months ago

20 의 마지막 코멘트에서 언급했듯이 MATH is_equiv() 는 문제없이 동작함을 확인함.

fgenie commented 8 months ago

3586d3cace539c6d55f2f90ef33de1dee4230774 is_equiv_ocw()를 옮긴 후 결과가 많이 좋아졌지만, 아직 모든 답안의 equivalence를 제대로 잡아내는 것은 아니다. 0.0 과 음수 float의 동등함을 제대로 평가하지 못하고 있는 것 같아보인다.

전 후 차이 diffchecker

이것을 진행 후, 나와있는 ocw결과에서 symbolic한 문제들에 대해 괄목할만한 결과가 있는지 확인해보자.