Closed fgenie closed 8 months ago
is_equiv()
는 문제없이 동작함을 확인함.3586d3cace539c6d55f2f90ef33de1dee4230774
is_equiv_ocw()
를 옮긴 후 결과가 많이 좋아졌지만, 아직 모든 답안의 equivalence를 제대로 잡아내는 것은 아니다.
0.0 과 음수 float의 동등함을 제대로 평가하지 못하고 있는 것 같아보인다.
이것을 진행 후, 나와있는 ocw결과에서 symbolic한 문제들에 대해 괄목할만한 결과가 있는지 확인해보자.
분명 맞는 답이 없는게 아닌데 모든 evaluation이 0으로 뜸 is_equiv_ocw() 랑 get_concordant_answer() 에서 ocw 사용시에 어떻게 되고 있는걸까?
ocw_eval_script_n_chatgpt_baseline.zip
(MATH) is_equiv() 는 잘 되고 있는걸까?