fgenie / rims_minimal

시작이 절반이고 마무리 또한 절반이다.

0 stars 1 forks source link

[MATH 결과 기록] selection prompt 오류 수정후 RIMS-GSM prompt 성능 #20

Closed fgenie closed 7 months ago

fgenie commented 8 months ago

49e70931cde075784076477339b215e8279280a1

수정후 성능이나 경향에 큰 영향은 없었습니다만, 재 측정이 필요한 부분을 업데이트 하였습니다. 결과/측정파일 커밋에 공유되어있습니다. (chatgpt)

fgenie commented 8 months ago

src/utils/new/result_baseline_chatgpt_re.txt

fgenie commented 8 months ago

RIMS prompt used (prep'd for GSM)

src/prompt_construction_src/prep_rims_prompts/gsm_prompts/3_reflectonce_cot2p2c.pal2cot.pal2p2c.txt_rm_ans

chatgpt

baseline (sj --> fixed --> fixed') total: 498 --> 495 --> 501/871 fail: 0 / 871 nonconflict: 466 / 624 --> 472/641 conflict: 32 --> 29 / 247 --> 29/230 (56.83%) --> 57.52 %

rims total: 534 / 870 --> 540 / 870 (1 fail to parse) fail: 0 / 870 nonconflict: 466 / 624 --> 472/641 conflict: 68 / 246 --> 68 / 229 (61.30 %) --> 62.00 %

gpt4turbo

baseline total: 619 / 871 fail: 0 / 871 nonconflict: 613 / 747 conflict: 6 / 124 (71.07%)

rims total: 639 / 871 fail: 1 / 871 nonconflict: 613 / 747 conflict: 26 / 123 (73.36%)

fgenie commented 8 months ago

gpt4turbo 결과 중 살펴볼만한 부분:

20건 정도는 세 답변 모두 틀려보여서 gpt4turbo가 셋 중 고르는걸 포기함
수치로만 보면 rims의 경우 이에 대해 일부 맞는 답에 도달하는데에 성공 (그 20개가 1대1 대응되는 예시는 아닐 것이지만)

백본 무관하게 rims나 baseline이나 1/3 의 적중률을 보이진 못 함.

ansmap에서 random하게 고를 경우에 성능과 비교해볼 수 있겠음

fgenie commented 8 months ago

MATH

cot

364 / 871 (41.8%)

pal

470 / 871 (54.0%)

p2c

457 / 871 (52.5%)

GPT4TURBO RESULTS

MATH

cot

482 / 871 (55.3%)

pal

577 / 871 (66.2%)

p2c

589 / 871 (67.6%)

fgenie commented 8 months ago

아웃풋을 찬찬히 확인해봤는데요. (math 말고도 gsm svamp ocw 모두)

math-chatgpt 결과만 변화가 있습니다 rims-baseline의 차이는 그대로고 그냥 둘 다 total correct +=6 되는 변화입니다. 위에서 보실 수 있습니다.

math-chatgpt의 경우만 #29 에서 언급한대로 어떤 시점 이전의 코드 아웃풋을 재사용해서 그랬던 거였고 다른 데이터셋이나 gpt4turbo로 실험한 아웃풋의 결과는 비슷한 문제 (None대신 "None" 이 결과에 기록되는 경우) 는 발견되지 않았습니다. 실제로 구동해봐도 그렇고요.

28 이것을 내일 디버깅해보려고 합니다.

그러면 여기까지 완료되면 gsm유래한 rims 프롬은 결과가 다 나오는거라서 ocw 결과물을 찬찬히 보고 다음 할 일을 정하면 될 것 같습니다.