Closed fgenie closed 7 months ago
src/utils/new/result_baseline_chatgpt_re.txt
src/prompt_construction_src/prep_rims_prompts/gsm_prompts/3_reflectonce_cot2p2c.pal2cot.pal2p2c.txt_rm_ans
baseline (sj --> fixed --> fixed') total: 498 --> 495 --> 501/871 fail: 0 / 871 nonconflict: 466 / 624 --> 472/641 conflict: 32 --> 29 / 247 --> 29/230 (56.83%) --> 57.52 %
rims total: 534 / 870 --> 540 / 870 (1 fail to parse) fail: 0 / 870 nonconflict: 466 / 624 --> 472/641 conflict: 68 / 246 --> 68 / 229 (61.30 %) --> 62.00 %
baseline total: 619 / 871 fail: 0 / 871 nonconflict: 613 / 747 conflict: 6 / 124 (71.07%)
rims total: 639 / 871 fail: 1 / 871 nonconflict: 613 / 747 conflict: 26 / 123 (73.36%)
gpt4turbo 결과 중 살펴볼만한 부분:
백본 무관하게 rims나 baseline이나 1/3 의 적중률을 보이진 못 함.
364 / 871 (41.8%)
470 / 871 (54.0%)
457 / 871 (52.5%)
482 / 871 (55.3%)
577 / 871 (66.2%)
589 / 871 (67.6%)
아웃풋을 찬찬히 확인해봤는데요. (math 말고도 gsm svamp ocw 모두)
math-chatgpt 결과만 변화가 있습니다 rims-baseline의 차이는 그대로고 그냥 둘 다 total correct +=6 되는 변화입니다. 위에서 보실 수 있습니다.
math-chatgpt의 경우만 #29 에서 언급한대로 어떤 시점 이전의 코드 아웃풋을 재사용해서 그랬던 거였고 다른 데이터셋이나 gpt4turbo로 실험한 아웃풋의 결과는 비슷한 문제 (None대신 "None" 이 결과에 기록되는 경우) 는 발견되지 않았습니다. 실제로 구동해봐도 그렇고요.
그러면 여기까지 완료되면 gsm유래한 rims 프롬은 결과가 다 나오는거라서 ocw 결과물을 찬찬히 보고 다음 할 일을 정하면 될 것 같습니다.
49e70931cde075784076477339b215e8279280a1
수정후 성능이나 경향에 큰 영향은 없었습니다만, 재 측정이 필요한 부분을 업데이트 하였습니다. 결과/측정파일 커밋에 공유되어있습니다. (chatgpt)