fgenie / rims_minimal

Been lazy enough to pull over again to the end!
0 stars 1 forks source link

더 올바른 OCW, MATH 평가를 위한 parsing, evaluation 함수 테스트 및 업데이트 사항 추가 #40

Closed fgenie closed 3 months ago

fgenie commented 3 months ago

TL;DR

Metric Math OCW
old_acc 0.247 0.099
new_acc 0.266 (+ 1.9%p) 0.195 (+ 9.6%p)
delta correct (+ 97 / 4996) (+26 / 272)

과정

  1. src/utils/math_util.py: is_ocw_equiv 에 대한 의문 --> 내부적으로 파싱이 너무 많이 실패하고 있는 것은 아닌가? 꼭 그렇진 않았다
  2. src/utils/llm_query_utils.py: extract_num_turbo 에 대한 의문: MATH, OCW 는 CoT 답변 양상이 다른데 파싱에 문제가 있진 않은가? --> 실제로 파싱에 문제가 있었다

ocw 정답을 어째서 utils.math_util.normalize_symbolic_expression 으로 정규화하지 않았는지에 대해 테스트해보았으나 이 차이는 2와 함께 테스트하면서 드러났고, is_equiv_ocw 는 원래의 implementation 을 최대한 유지하는 것이 더 바람직한 것으로 보임.

테스트 흔적들: ./src/prompt_construction-src/tests/*.py ./src/prompt_construction_src/tests/test_diff_by_parsing_cot.ipynb