기존 Pretrained Model인 koBART를 Dialogue Summarization에 맞게 Fine-tuning
Results
Rouge 1
Rouge 2
Rouge L
Rouge Lsum
0.3134001998905277
0.1782477263484106
0.27797291413303815
0.2779665165772779
Generated Summary
Label Summary
토너가 아까워서 안 쓰고 살은 적실 정도로 칙칙하고 좋은 거 아갑다고 들쓰는데 저렴한 건 팍팍팍 해서 저렵한 게 더 효과적일 것 같다고 한다.
토너가 아까워서 아껴서 사용했다고 하니 좋은 건 아깝다고 덜 쓰지만 저렴한 건 막 써서 저렴한 게 더 효과가 좋은 것 같다고 말한다.
요즘 장활동이 좋아서 운동하기 전 45분 동안 세 번 똥을 싸서 살이 빠질 것 같다고 이야기하고 있다. 똥은 계속 쌀 거니까 늘지는 않을 것 같지만 살이 빠지는 건 아니라고 한다. 똥이 계속 쌀 거라고 한다. 살이 빠지니까 똥도 늘진 않을 거 같다.
요즘 운동을 해서 그런지 9시 눈 떠서 운동 가기 전 45분 동안 세 번이나 쾌변을 본다.
금요일에에 약속이 없어서 초딩 친구들이랑 새벽까지 놀기로 했다. 한우와 기생충도 먹고 24시 카페에 간다. 금요일 밤에 약속이 없는지 물어본다. 한우는 있고 초딩 친구들은 있다고 한다. 한우는 없고 심야에 카페를 간다고 한다. 24시 약속이 있다. 한우는 없다. 금요일 밤에 새벽까지 같이 놀자고 한다. 한우를 먹고 심야
금요일 밤에 만나서 새벽까지 놀기로 했다.
승우 센터를 못해서 기분이 안 좋다며 김요한만 오라고 하고 한승우를 사랑한다고 한다.
한승우가 센터를 못해서 기분이 안 좋다.
오늘 손님이 준 에그타르트 세 개를 처묵하게 먹었는데 맛있었다. 전문점 건 다르지만 맛있었다.
손님이 준 에그타르트를 세 개 먹었는데 너무 맛있어서 전문점 건 다르다고 생각했다.
koBART + Speaker-Aware Fine-tuning
Method
Speaker-Aware Function에 Speaker Token들의 Encoder Representation을 전달
Positivie Sample : 기준 Speaker와 같은 Speaker Token들의 Encoder Representation
Negativie Sample : 기준 Speaker와 다른 Speaker Token들의 Encoder Representation
Contrastive Learning을 통해 Positive Samples와 Negative Samples의 Representation을 각각 비슷해지도록 학습
Results
Rouge 1
Rouge 2
Rouge L
Rouge Lsum
0.3226975922434263
0.18266904865135086
0.28801242656619996
0.28788674056581637
Generated Summary
Label Summary
토너가 아까워서 안 쓰고 살은 적실 정도로 칙칙칙하고 좋은 거 아갑다고 들쓰는데 저렴한 건 안 쓰고 팍팍팍 해서 저렵한 게 더 효과적이라고 한다.
토너가 아까워서 아껴서 사용했다고 하니 좋은 건 아깝다고 덜 쓰지만 저렴한 건 막 써서 저렴한 게 더 효과가 좋은 것 같다고 말한다.
요즘 장활동이 좋아서 운동하기 전에 45분 동안 세 번 똥을 싸고 똥이 잘 싸는 것 같다. 똥은 계속 쌀 거니까 늘진 않을 것 같지만 살이 빠질 것 같다고 이야기한다. 똥도 잘 싸고 살이 빠지는 것 같고 행복하다. 씹는 것도 행복이다. 씹으면 살이 빠진다고 한다. 똥
요즘 운동을 해서 그런지 9시 눈 떠서 운동 가기 전 45분 동안 세 번이나 쾌변을 본다.
금요일에에 약속이 없냐고 물으니 초딩 친구들이랑 놀니까 새벽까지 놀자고 한다. 24시 카페에 가서 기생충도 먹고 24시도 카페에 가자고 한다.
금요일 밤에 만나서 새벽까지 놀기로 했다.
승우 센터를 못해서 기분이 안 좋다며 김요한만 오라고 한다. 한승우는 끼가 있고 몬스타엑스(몬스타) 감이라고 한다.
한승우가 센터를 못해서 기분이 안 좋다.
오늘 손님이 준 에그타르트 세 개를 처묵하게 먹었는데 맛있었다. 전문점 건 다르지만 맛있었다.
손님이 준 에그타르트를 세 개 먹었는데 너무 맛있어서 전문점 건 다르다고 생각했다.
koBART + Topic-Aware Fine-tuning
Method
Encoder로부터 나온 Encoder Representation 중에서 utterance token들의 Encoder Representation Mean Pooling 값을 계산
Topic-Aware Function에 Utterance Tokens의 Encoder Representation Mean Pooling을 전달
Kmeans Algorithm으로 각 Utterance Token들의 Topic을 Clustering으로 예측(# of Cluster : 2)
각 Cluster들의 Centeroid와 Centeroid로부터 가장 가까이 있는 다른 Cluster의 표현과의 L2 Distance를 Positive와 Negative로 추출
토너 아까워서 안 쓰고 살은 적실 정도로 칙칙칙하고 좋은 거 아갑다고 들쓰는데 저렴한 건 팍팍팍 해서 저렵한 게 더 효과적일 것 같다.
토너가 아까워서 아껴서 사용했다고 하니 좋은 건 아깝다고 덜 쓰지만 저렴한 건 막 써서 저렴한 게 더 효과가 좋은 것 같다고 말한다.
요즘 장활동이 좋아서 운동하기 전 45분 동안 세 번 똥을 싸고 살이 빠질 것 같다. 똥은 계속 쌀 거니까 늘진 않을 것 같지만 살이 빠지는 건 행복이다. 똥이 계속 쌀 것이니까 늘지 않을 것이다. 똥도 계속 쌀 것이다. kg이 늘진 않겠지만 kg은 계속 늘지 않겠다. kg
요즘 운동을 해서 그런지 9시 눈 떠서 운동 가기 전 45분 동안 세 번이나 쾌변을 본다.
금요일에 한우와 기생충을 먹고 24시 카페에 가기로 했다. 금요일에 약속이 없냐고 물으니 초딩 친구들이랑 놀기 때문에 새벽까지 놀라고 한다. 한우를 먹고 심야로 기 생충도 먹으러 가자고 한다. 24시카페에 간다고 한다.
금요일 밤에 만나서 새벽까지 놀기로 했다.
승우 센터를 못해서 기분이 안 좋다며 김요한만 오라고 한다. 한승우는 끼가 있고 몬스타엑스(몬스타) 감이라고 한다.
한승우가 센터를 못해서 기분이 안 좋다.
오늘 손님이 준 에그타르트 세 개가 맛있었다고 하자 맛있었다고 한다. 전문점 건 다르다고 한다.
Topic-Aware의 Utterance Token Sampling 방식을 잘못 이해하여 다시 수정
기존 : Utterance Tokens의 Mean Pooling 값을 min, max를 이용하여 positive와 negative 값을 추출 -> 이 값을 Contrastive Learning 식에 적용
수정 : Utterance Tokens의 Mean Pooling 값을 KMeans로 Clustering한 후, 각 Cluster의 Centroid와 반대편의 Cluster에 속한 Utterance Token간 L2 Distance를 구하고 그 중 min값을 positive와 negative로 결정 -> Softmax 취한 후, Contrastive Learning 식에 적용
결과 : ROUGE1 기준으로 이전보다 0.1 저하는 되었지만 운 좋게 데이터셋이 적절하게 나뉜것으로 판단 -> 수정된 방식이 이전 방식보다 논리적으로 완성도 있는 방식이므로 수정 방식을 사용
Baseline Expermental - Korean Dataset
Experimental Plan
Experimental Analysis
Test Raw Data
koBART Fine-tuning
Results
koBART + Speaker-Aware Fine-tuning
Method
Results
koBART + Topic-Aware Fine-tuning
Method
Results
koBART + Multi-Aware(Speaker-Aware + Topic-Aware) Fine-tuning
Method
Results