논문	One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases
저자	Xingdi Yuan, Tong Wang, Rui Meng
링크	https://arxiv.org/abs/1810.05241
학회	ACL 2020

2. Evaluating Keyphrase Generation

본 논문에서는 새로운 evaluation metric 을 제안하는데 이는 기존의 precision, recall 그리고 f1 을 바탕으로 한 metric 이다.

Related Work

1. Precision, Recall, F1

모델을 평가하는 요소는 모델이 내놓은 prediction 과 ground truth 간의 관계로 정의를 내릴 수 있다. prediction 이 true 와 false, ground truth 또한 true, false 로 생각한다면 2 * 2 행렬로 표현할 수 있다.

True	False
True	True Positive	False Positive
False	False Negative	True Negative

이 때 각 케이스는 아래와 같다.

TP: 실제 True 인 정답을 True 라고 예측 (정답)
FP: 실제 False 인 정답을 True 라고 예측 (오답)
FN: 실제 True 인 정답을 False 라고 예측 (오답)
TN: 실제 False 인 정답을 False 라고 예측 (정답)

Precision (정밀도) 란 모델이 True 라고 분류한 것 중에서 실제 True 인 것의 퍼센티지이다. 수식은 아래와 같다.

$precision = \frac{TP}{TP+FP}$

Positive Predictive Value 라고 불리우며 예를 들어 날씨 예측 모델이 맑다로 예측했을 때, 실제 날씨가 맑았는지 살펴보는 지표라고 할 수 있다.

Recall (재현율) 이란 실제 True 인 것 중에서 모델이 True 라고 예측한 것의 퍼센티지이다. 수식은 아래와 같다.

$recall = \frac{TP}{TP+FN}$

통계학에서는 sensitivity 로 불리며 실제 날씨가 맑은 날 중에서 모델이 맑다고 예측한 비율을 나타낸 지표이다. Precision 과 Recall 는 관점의 차이가 있는데 전자는 모델의 입장에서, 후자는 실제 정답의 입장에서 바라본다는 것이 주요한 차이점이다.

F1 이란 Precision 과 Recall 의 조화평균이며 수식은 아래와 같다.

$F1 = 2 * \frac{precision * recall}{precision+recall}$

F1 을 통하여 imbalance 한 데이터 집합을 가지고 있을 때 모델의 성능을 보다 정확하게 평가할 수 있다.

Suggested Evaluating Method for Keyphrase Generation

1. Previous Approach

Keyphrase Generation 모델을 평가할 때 주로 top-k prediction 를 사용한다. 이는 precision, recall 과 F1 을 계산할 때 constant k 라는 조건을 넣는 건데 아래와 같이 정의할 수 있다.

$P@k = \frac{\hat{y}_{:k} \cap * y}{\hat{y}_{:k}}, R@k = \frac{\hat{y}_{:k} \cap * y}{\hat{y}}, F1@k = 2 * \frac{P@k * R@k}{P@k+R@k}$ evaluation 에 사용되는 생성된 keyphrase 의 수는 평가 품질에 큰 영향을 미칠 수 있다. 이 논문에서는

섹션 1에서 논의한 것처럼 평가에 사용 된 생성 된 키 프레이즈의 수는 결과 평가 메트릭의 품질에 중대한 영향을 미칠 수 있습니다. 어떠한 문제점이 있는지 서술한다.

F1@k : pre-defined constant 로서 일반적으로 5 또는 10 으로 정의한다. ground truth keyphrases 의 수가 높은 분산을 가지고 있기 때문에 자주 |\hat{y}_{:k}| < k < |ground truth| 가 된다.

R@k의 경우 실제 ground truth 의 수를 분모로 하고 있기 때문에 top-k prediction 과 ground truth 간의 교집합과 ground truth 간의 비율을 계산하게 된다면 부정확할 수 있음을 알 수 있다. 이러한 경향은 모델을 평가함에 있어서 좋지 않은 영향을 끼치는데 본 논문에서 주장하길 현재 모든 keyphrase generation 연구의 evaluation metric 은 위의 metric 을 사용한다고 한다.

이를 해결하기 위한 간단한 방법은 각각의 데이터 예제에 k 라는 variable number 를 지정하는 것이다.

2. Suggestion

F1@O : O 는 ground truth keyphrase 의 개수를 나타내며 이 경우 k = |ground truth| 이며 이는 각각의 데이터 예제에서 evaluation 을 위해서 사용되는 predicated phrases 는 ground truth keyphrases 의 수와 동일함을 의미한다.
F1@M : M 은 predicted keyphrases 의 수를 의미한다. 이 경우 k = |predicted keyphrases| 이며 F1@k 와 다르게 truncation 없이 모든 predicted phrases 를 evaluation 에 사용한다.

k 를 다른 변수로 간단히 확장함으로써 F1@O 와 F1@ M은 각각의 문서에 대해 가변적 인 수의 phrases 의 특성을 반영할 수 있으며 모델은 다음과 같은 경우 최대 F1 점수 1.0을 달성 할 수 있다. F1@O 의 또 다른 장점은 모델 출력과 독립적이므로 기존 모델을 비교하는 데 사용할 수 있다는 것있다.

Notes

본 논문에서 지적한 것은 generated keyphrases 의 가변적 특성으로 인한 문제이다. 그렇기 때문에 ground truth 와 정확히 일치하는 경우에도 F1 의 최대 점수인 1.0 을 달성할 수 없다. 하지만 k 를 각각 ground truth, predicted phrases 의 수로 확장함으로서 이러한 문제점을 해결한다고 한다.

개인적인 의견으로는 새로운 evaluation metric 을 제안했다고 하기엔 기여도가 큰 것 같지는 않다. 또한 새로운 evaluation 에 대한 human evaluation 이 없는 것도 지적할 수 있는 부분 중 하나인 것 같다.

keyphrases 는 absent keyphrase 와 present keyphrase 로 나뉘는데 제안된 metric 은 present keyphrase 에 대해서만 사용할 수 있다. absent keyphrase 에 대한 점은 없다는 것 또한 주요한 지적점이다.

absent keyphrase 에 대한 metric 으로서는 semantic similarity 를 고려해서 제안하는 evaluation metric 이 필요해보이며 human evaluation 이 함께 된다면 더 좋을 것 같다.

BERTScore: Evaluating Text Generation with BERT 와 BLEURT: Learning Robust Metrics for Text Generation 를 참고하면 좋을 것 같다.

1. Model Architecture

기본적으로 Seq2Seq (Sequence-to-Sequence) 와 Copy Mechanism, Attention 을 이용한 neural network 의 형태를 가지고 있다. Decoding Level 에서는 beam search 를 사용한다.

Mechanisms for Diverse Generation

Generation Model 이 가지고 있는 문제점이라면 generated value 가 ground truth 에 치우치는 경향이 존재한다는 점이다. 그렇기 때문에 Diversity 를 고려하는 것은 매우 중요하다.

Screen Shot 2020-08-02 at 10 04 07 PM

Figure 1 : Keyphrase Diversity 를 향상시키기 위한 제안 모델의 구조임. A: Last state of bi-directional source encoder, B: Last state of target encoder, C: Decoder states where target tokens are either delimiters or eos tokens.

Orthogonal Regularization 에서 모든 C 의 states 는 사용됨. Target Encoder 가 학습되는 동안 states A 와 B 간의 mutual information 을 maximize 한다.

Semantic Coverage

Generated Phrases 의 Semantic Representation 에 집중하기위한 Mechanism 임. 이를 위해 Decoder 에서 생성된 Tokens 를 Encode 하는 또 하나의 단방향 순환신경망 GRU_{SC} 를 추가함. 그렇게 되면 최종적으로 나오는 Decoder 의 Hidden States 는 아래와 같다.

Screen Shot 2020-08-02 at 10 01 17 PM

Target Encoder 를 self-supervised fashion 으로 학습함. Contrastive Predictive Coding 을 이용하는데 Noise Contrastive Estimation Loss 는 mutual information 의 lower bound 를 maximize 하는 효과가 있음. => Target Encoder 로 final hidden state h^M_{SC} 를 추출하고 이걸 target phrases 의 representation 으로 사용함. 위의 representation 과 source encoder 의 final hidden state h^T_e 간의 mutual information 을 학습함.

Screen Shot 2020-08-02 at 10 44 50 PM

Semantic Coverage 는 generated keyphrase 의 representation 이 의미적으로 source text 에 가깝게 하도록 하는 것이 주요 목적임.

Orthogonal Regularization

Domain separation networks, Bousmalis et al. (2016) 으로부터 영감을 받음.

Screen Shot 2020-08-02 at 10 51 51 PM

H = <h^{t_1}_d, ..., h^{n}_d> 임. 위의 수식을 통해 decoder hidden states 간의 dot product 를 한 후, diag 를 제외한 벡터의 L2 norm 을 구함. => diversity 가 향상됨!

JudePark96 / paper-summaries

🚀 [2020] One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases #1

Contents

1. Model Architecture