fgenie / rims_minimal

시작이 절반이고 마무리 또한 절반이다.
0 stars 1 forks source link

[SVAMP 결과 기록] #23

Closed fgenie closed 7 months ago

fgenie commented 8 months ago

ChatGPT

baseline

total: 877 / 1000 fail: 0 / 1000 nonconflict: 859 / 938 conflict: 18 / 62

rims

total: 883 / 1000 fail: 0 / 1000 nonconflict: 859 / 938 conflict: 24 / 62

GPT4turbo

baseline

total: 953 / 1000 parsingfail: 0 / 1000 nonconflict: 952 / 986 conflict: 1 / 14

rims

total: 953 / 1000 parsingfail: 2 / 1000 nonconflict: 952 / 986 conflict: 1 / 12

parsing fail이 두 건 발생한다. 그걸 다 오답으로 하고 동점. conflict =12/1000으로 gsm과 유사하게 매우 적다

fgenie commented 8 months ago

conflict가 적다. 디버깅 이후 적어진 것도 있지만 얘는 특별히 적은듯

fgenie commented 8 months ago

chatGPT

SVAMP

cot

830 / 1000 (83.0%)

pal

841 / 1000 (84.1%)

p2c

835 / 1000 (83.5%)

fgenie commented 8 months ago

GPT4TURBO

SVAMP

cot

919 / 1000 (91.9%)

pal

944 / 1000 (94.4%)

p2c

948 / 1000 (94.8%)