boostcampaitech2 / mrc-level2-nlp-04

mrc-level2-nlp-04 created by GitHub Classroom

4 stars 5 forks source link

마지막 실험 8가지 #48

Open sangmandu opened 2 years ago

sangmandu commented 2 years ago

목차

[x] 1. output layer의 depth를 2, 3층 + drop out으로 쌓아보자
[x] 2. max_seq_len을 줄이자
[x] 3. augmentation 데이터를 현재 모델이 잘 맞추는 데이터로만 추가해보자
[x] 4. concat과 preprocess 의미가 있을까?
[ ] 5. 후처리를 해보자 => 조사나 어미 제거
[x] 6. nbest에서 뽑은 똑같은 keyword에 대해 확률을 더해보자
[ ] 7. ~max_context_token을 사용해보자~
[x] 8. 틀린 데이터는 pororo로 2배의 aug를!
[x] 9. 배치를 256, 512로 늘려!!!

결과

1. output layer의 depth를 2, 3층 + drop out으로 쌓아보자

모델 스펙

small, 16batch, no concat, no proprecess, basic dataset

다음은 Layer의 여러 종류를 나타냄

L : layers depth
d : dropout
h : h -> h // 2-> h // 4 -> 2 또는 h -> h // 2 -> 2 또는 h -> 2 (default)
sh : h -> h -> h // 2 -> 2
bh : h -> h //2 -> h//2 -> 2
n : h -> h -> h -> 2 또는 h -> h -> 2
m : h -> 2h -> 2 또는 h -> 2h -> 4*h -> 2
sm : h -> h -> 2*h -> 2
bm : h -> 2h -> 2h -> 2

성능

L1h	L2h	L2n	L2m	L3h	L3sh	L3bh	L3n	L4h	L5h
EV-EM	54.583	53.75	55.00	55.417	56.667	54.167	54.167	55	54.167	54.167
EV-F1	62.569	63.762	64.508	63.718	65.751	61.418	61.208	63.537	62.355	62.052

L3h에서 dropout 적용해보기
L3에서 m 적용해보기
RobertaLarge 모델은 차원이 더 많기 때문에 L4와 L5가 더 잘먹힐 수도 있음 실험해보기

L3hd	L3m	L3sm	L3bm	L3h_large	L4h_large	L5h_large
EV-EM	53.333	53.75	56.25	52.917	70	70	69.583
LB	-	-	-	-	-	-	-

결과

predictions.json 결과가 매우 처참하다. 이쪽을 건드리면 이렇게 되는가 싶다. 아무리 eval 성능이 좋아도 prediction이 망한다.

결론: 하지말자

2. max_seq_len을 줄이자

모델 스펙

small, 128batch

basic	concat384-128	concat150-50	concat200-70	concat100-35	concat512-172(16batch)	acc2*64basic
EV-EM	56.25	50.833	48.75	49.583	53.75	52.5	52.5

결론

seq_len 줄이면 성능이 감소된다. (reader에게는 k가 늘어나는 효과로 보임)
seq_len 늘리면 배치를 줄여야 하는 문제가 발생. accmulate gd로 맞춰보자 했지만 성능이 떨어짐.
단순히 16batch basic이랑만 비교해도 seq_len 늘려도 1.5점의 감소.

현재 길이가 제일 좋다.

3. augmentation 데이터를 현재 모델이 잘 맞추는 데이터로만 추가해보자

4. concat과 preprocess 의미가 있을까?

모델 스펙

small, 128batch

basic	concat
EV	56.25	50.833

large, 128batch

neither	only concat	only pre	either
EV	72.917	67.5	70.833	65.0
LB	63.750	61.250	57.500	61.670

결론

당연히 concat을 하면 reader는 더 어려워질 수 밖에 없다. EV이 높은 것은 예상한 결과
근데, 아무것도 하지 않은 large가 점수가 제일 높다. 이건 다시 적용해보아야 할 문제
pre processing은 왜이렇게 작게나왔는지 모르겠네요. ㅜㅜㅜㅜ 일단 실험결과 아무것도 안한것이 제일 나아요.

5. 후처리를 해보자 => 조사나 어미 제거

6. nbest에서 뽑은 똑같은 keyword에 대해 확률을 더해보자

크게 달라지는 점은 없다. 성능은 오히려 감소.

실제로 순위가 바뀐 결과가 3개의 데이터밖에 없다.

결론

하지마

7. max_context_token을 사용해보자

8. 틀린 데이터는 pororo로 2배의 aug를!

9. 배치를 256, 512로 늘려!!!

128 : 72.927

256 : 67.5

512 : 65.417

결론

늘리지말자