p2c/pal 결과 처리과정 수정

fgenie / rims_minimal

시작이 절반이고 마무리 또한 절반이다.

0 stars 1 forks source link

README.md 아래 todo 에 진행사항이 적혀있음

few shot harvesting / equivalence / parsing 이 셋이 좀 밀접하게 돌고돌아서 고생을 좀 했으나... 이제 거의 다 왔음
- 저번은 cot parsing 에 관한 것이었고 이번에는 code execution 결과 처리에 관한 것 (sympy - latex expression)
  GSM: (no effective change) / 6 None's OCW: (24 effective change) / 82 rows change over 272 / 58 None's MATH: (147 effective change) /. 1318 rows change over 4996 / 1172 None's
cot / pal / model selection / rims 의 fewshot은 dataset-adaptive로 하고 p2c만 원 논문의 MBPP fewshot을 사용하게 될 것

CoT 파싱에 관한 내용은 아래, 해당 개선으로 CoT, PAL의 결과 변동 정도는 비슷하다. https://github.com/fgenie/rims_minimal/issues/37#issuecomment-1997943151

baseline 의 디버깅까지 마쳤습니다.

evaluation / parsing 그리고 이에 연관된 majority voting 로직 (majority voting 로직을 바꾸지 않고 이전 결과에 채점한 경우에는 의도한대로 성능 변화가 없었음)
ocw, math에 활용되는 프롬프트의 변경
math 에서 pt 5개로 나눠서 돌던거 그냥 한 통으로 돌도록 변경, 애초에 문제가 긴 execution time이 아니었으므로...
outdir 좀더 관리 편리하게 변경
token 수를 잘 세보니 longcontext 가 강제되는 상황은 아니나, 이전 성적이 chatgptlong이었기 때문에 동등 비교를 위해 현재 실험은 chatgpt0613long으로 하겠음. 이후에는 성능이 비슷한 chatgpt0613 혹은 chatgpt1106으로 수행할 예정.

fgenie / rims_minimal