Closed fgenie closed 7 months ago
total: 877 / 1000 fail: 0 / 1000 nonconflict: 859 / 938 conflict: 18 / 62
total: 883 / 1000 fail: 0 / 1000 nonconflict: 859 / 938 conflict: 24 / 62
total: 953 / 1000 parsingfail: 0 / 1000 nonconflict: 952 / 986 conflict: 1 / 14
total: 953 / 1000 parsingfail: 2 / 1000 nonconflict: 952 / 986 conflict: 1 / 12
parsing fail이 두 건 발생한다. 그걸 다 오답으로 하고 동점. conflict =12/1000으로 gsm과 유사하게 매우 적다
conflict가 적다. 디버깅 이후 적어진 것도 있지만 얘는 특별히 적은듯
830 / 1000 (83.0%)
841 / 1000 (84.1%)
835 / 1000 (83.5%)
919 / 1000 (91.9%)
944 / 1000 (94.4%)
948 / 1000 (94.8%)
ChatGPT
baseline
total: 877 / 1000 fail: 0 / 1000 nonconflict: 859 / 938 conflict: 18 / 62
rims
total: 883 / 1000 fail: 0 / 1000 nonconflict: 859 / 938 conflict: 24 / 62
GPT4turbo
baseline
total: 953 / 1000 parsingfail: 0 / 1000 nonconflict: 952 / 986 conflict: 1 / 14
rims
total: 953 / 1000 parsingfail: 2 / 1000 nonconflict: 952 / 986 conflict: 1 / 12
parsing fail이 두 건 발생한다. 그걸 다 오답으로 하고 동점. conflict =12/1000으로 gsm과 유사하게 매우 적다