evaluation / parsing 그리고 이에 연관된 majority voting 로직 (majority voting 로직을 바꾸지 않고 이전 결과에 채점한 경우에는 의도한대로 성능 변화가 없었음)
ocw, math에 활용되는 프롬프트의 변경
math 에서 pt 5개로 나눠서 돌던거 그냥 한 통으로 돌도록 변경, 애초에 문제가 긴 execution time이 아니었으므로...
outdir 좀더 관리 편리하게 변경
token 수를 잘 세보니 longcontext 가 강제되는 상황은 아니나, 이전 성적이 chatgptlong이었기 때문에 동등 비교를 위해 현재 실험은 chatgpt0613long으로 하겠음. 이후에는 성능이 비슷한 chatgpt0613 혹은 chatgpt1106으로 수행할 예정.
README.md
아래 todo 에 진행사항이 적혀있음GSM: (no effective change) / 6 None's OCW: (24 effective change) / 82 rows change over 272 / 58 None's MATH: (147 effective change) /. 1318 rows change over 4996 / 1172 None's
CoT 파싱에 관한 내용은 아래, 해당 개선으로 CoT, PAL의 결과 변동 정도는 비슷하다. https://github.com/fgenie/rims_minimal/issues/37#issuecomment-1997943151