JudePark96 / paper-summaries

The inventory of history of taking paper summary by me.
1 stars 1 forks source link

πŸš€ [2020] One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases #1

Open JudePark96 opened 3 years ago

JudePark96 commented 3 years ago
λ…Όλ¬Έ One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases
μ €μž Xingdi Yuan, Tong Wang, Rui Meng
링크 https://arxiv.org/abs/1810.05241
ν•™νšŒ ACL 2020

Contents

1. Model Architecture

2. Evaluating Keyphrase Generation

3. Datasets and Experiments

4. Conclusion

JudePark96 commented 3 years ago

2. Evaluating Keyphrase Generation

λ³Έ λ…Όλ¬Έμ—μ„œλŠ” μƒˆλ‘œμš΄ evaluation metric 을 μ œμ•ˆν•˜λŠ”λ° μ΄λŠ” 기쑴의 precision, recall 그리고 f1 을 λ°”νƒ•μœΌλ‘œ ν•œ metric 이닀.

Related Work

1. Precision, Recall, F1

λͺ¨λΈμ„ ν‰κ°€ν•˜λŠ” μš”μ†ŒλŠ” λͺ¨λΈμ΄ 내놓은 prediction κ³Ό ground truth κ°„μ˜ κ΄€κ³„λ‘œ μ •μ˜λ₯Ό 내릴 수 μžˆλ‹€. prediction 이 true 와 false, ground truth λ˜ν•œ true, false 둜 μƒκ°ν•œλ‹€λ©΄ 2 * 2 ν–‰λ ¬λ‘œ ν‘œν˜„ν•  수 μžˆλ‹€.

True False
True True Positive False Positive
False False Negative True Negative

이 λ•Œ 각 μΌ€μ΄μŠ€λŠ” μ•„λž˜μ™€ κ°™λ‹€.

Precision (정밀도) λž€ λͺ¨λΈμ΄ True 라고 λΆ„λ₯˜ν•œ 것 μ€‘μ—μ„œ μ‹€μ œ True 인 κ²ƒμ˜ 퍼센티지이닀. μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

Positive Predictive Value 라고 뢈리우며 예λ₯Ό λ“€μ–΄ 날씨 예츑 λͺ¨λΈμ΄ λ§‘λ‹€λ‘œ μ˜ˆμΈ‘ν–ˆμ„ λ•Œ, μ‹€μ œ 날씨가 λ§‘μ•˜λŠ”μ§€ μ‚΄νŽ΄λ³΄λŠ” μ§€ν‘œλΌκ³  ν•  수 μžˆλ‹€.

Recall (μž¬ν˜„μœ¨) μ΄λž€ μ‹€μ œ True 인 것 μ€‘μ—μ„œ λͺ¨λΈμ΄ True 라고 μ˜ˆμΈ‘ν•œ κ²ƒμ˜ 퍼센티지이닀. μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

ν†΅κ³„ν•™μ—μ„œλŠ” sensitivity 둜 뢈리며 μ‹€μ œ 날씨가 맑은 λ‚  μ€‘μ—μ„œ λͺ¨λΈμ΄ 맑닀고 μ˜ˆμΈ‘ν•œ λΉ„μœ¨μ„ λ‚˜νƒ€λ‚Έ μ§€ν‘œμ΄λ‹€. Precision κ³Ό Recall λŠ” κ΄€μ μ˜ 차이가 μžˆλŠ”λ° μ „μžλŠ” λͺ¨λΈμ˜ μž…μž₯μ—μ„œ, ν›„μžλŠ” μ‹€μ œ μ •λ‹΅μ˜ μž…μž₯μ—μ„œ λ°”λΌλ³Έλ‹€λŠ” 것이 μ£Όμš”ν•œ 차이점이닀.

F1 μ΄λž€ Precision κ³Ό Recall 의 쑰화평균이며 μˆ˜μ‹μ€ μ•„λž˜μ™€ κ°™λ‹€.

F1 을 ν†΅ν•˜μ—¬ imbalance ν•œ 데이터 집합을 가지고 μžˆμ„ λ•Œ λͺ¨λΈμ˜ μ„±λŠ₯을 보닀 μ •ν™•ν•˜κ²Œ 평가할 수 μžˆλ‹€.

Suggested Evaluating Method for Keyphrase Generation

1. Previous Approach

Keyphrase Generation λͺ¨λΈμ„ 평가할 λ•Œ 주둜 top-k prediction λ₯Ό μ‚¬μš©ν•œλ‹€. μ΄λŠ” precision, recall κ³Ό F1 을 계산할 λ•Œ constant k λΌλŠ” 쑰건을 λ„£λŠ” 건데 μ•„λž˜μ™€ 같이 μ •μ˜ν•  수 μžˆλ‹€.

evaluation 에 μ‚¬μš©λ˜λŠ” μƒμ„±λœ keyphrase 의 μˆ˜λŠ” 평가 ν’ˆμ§ˆμ— 큰 영ν–₯을 λ―ΈμΉ  수 μžˆλ‹€. 이 λ…Όλ¬Έμ—μ„œλŠ”

μ„Ήμ…˜ 1μ—μ„œ λ…Όμ˜ν•œ κ²ƒμ²˜λŸΌ 평가에 μ‚¬μš© 된 생성 된 ν‚€ ν”„λ ˆμ΄μ¦ˆμ˜ μˆ˜λŠ” κ²°κ³Ό 평가 λ©”νŠΈλ¦­μ˜ ν’ˆμ§ˆμ— μ€‘λŒ€ν•œ 영ν–₯을 λ―ΈμΉ  수 μžˆμŠ΅λ‹ˆλ‹€. μ–΄λ– ν•œ 문제점이 μžˆλŠ”μ§€ μ„œμˆ ν•œλ‹€.

R@k의 경우 μ‹€μ œ ground truth 의 수λ₯Ό λΆ„λͺ¨λ‘œ ν•˜κ³  있기 λ•Œλ¬Έμ— top-k prediction κ³Ό ground truth κ°„μ˜ ꡐ집합과 ground truth κ°„μ˜ λΉ„μœ¨μ„ κ³„μ‚°ν•˜κ²Œ λœλ‹€λ©΄ λΆ€μ •ν™•ν•  수 μžˆμŒμ„ μ•Œ 수 μžˆλ‹€. μ΄λŸ¬ν•œ κ²½ν–₯은 λͺ¨λΈμ„ 평가함에 μžˆμ–΄μ„œ 쒋지 μ•Šμ€ 영ν–₯을 λΌμΉ˜λŠ”λ° λ³Έ λ…Όλ¬Έμ—μ„œ μ£Όμž₯ν•˜κΈΈ ν˜„μž¬ λͺ¨λ“  keyphrase generation μ—°κ΅¬μ˜ evaluation metric 은 μœ„μ˜ metric 을 μ‚¬μš©ν•œλ‹€κ³  ν•œλ‹€.

이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ κ°„λ‹¨ν•œ 방법은 각각의 데이터 μ˜ˆμ œμ— k λΌλŠ” variable number λ₯Ό μ§€μ •ν•˜λŠ” 것이닀.

2. Suggestion

k λ₯Ό λ‹€λ₯Έ λ³€μˆ˜λ‘œ κ°„λ‹¨νžˆ ν™•μž₯ν•¨μœΌλ‘œμ¨ F1@O 와 F1@ M은 각각의 λ¬Έμ„œμ— λŒ€ν•΄ 가변적 인 수의 phrases 의 νŠΉμ„±μ„ λ°˜μ˜ν•  수 있으며 λͺ¨λΈμ€ λ‹€μŒκ³Ό 같은 경우 μ΅œλŒ€ F1 점수 1.0을 달성 ν•  수 μžˆλ‹€. F1@O 의 또 λ‹€λ₯Έ μž₯점은 λͺ¨λΈ 좜λ ₯κ³Ό λ…λ¦½μ μ΄λ―€λ‘œ κΈ°μ‘΄ λͺ¨λΈμ„ λΉ„κ΅ν•˜λŠ” 데 μ‚¬μš©ν•  수 μžˆλ‹€λŠ” κ²ƒμžˆλ‹€.

Notes

λ³Έ λ…Όλ¬Έμ—μ„œ μ§€μ ν•œ 것은 generated keyphrases 의 가변적 νŠΉμ„±μœΌλ‘œ μΈν•œ λ¬Έμ œμ΄λ‹€. κ·Έλ ‡κΈ° λ•Œλ¬Έμ— ground truth 와 μ •ν™•νžˆ μΌμΉ˜ν•˜λŠ” κ²½μš°μ—λ„ F1 의 μ΅œλŒ€ 점수인 1.0 을 달성할 수 μ—†λ‹€. ν•˜μ§€λ§Œ k λ₯Ό 각각 ground truth, predicted phrases 의 수둜 ν™•μž₯ν•¨μœΌλ‘œμ„œ μ΄λŸ¬ν•œ λ¬Έμ œμ μ„ ν•΄κ²°ν•œλ‹€κ³  ν•œλ‹€.

개인적인 μ˜κ²¬μœΌλ‘œλŠ” μƒˆλ‘œμš΄ evaluation metric 을 μ œμ•ˆν–ˆλ‹€κ³  ν•˜κΈ°μ—” 기여도가 큰 것 κ°™μ§€λŠ” μ•Šλ‹€. λ˜ν•œ μƒˆλ‘œμš΄ evaluation 에 λŒ€ν•œ human evaluation 이 μ—†λŠ” 것도 지적할 수 μžˆλŠ” λΆ€λΆ„ 쀑 ν•˜λ‚˜μΈ 것 κ°™λ‹€.

keyphrases λŠ” absent keyphrase 와 present keyphrase 둜 λ‚˜λ‰˜λŠ”λ° μ œμ•ˆλœ metric 은 present keyphrase 에 λŒ€ν•΄μ„œλ§Œ μ‚¬μš©ν•  수 μžˆλ‹€. absent keyphrase 에 λŒ€ν•œ 점은 μ—†λ‹€λŠ” 것 λ˜ν•œ μ£Όμš”ν•œ 지적점이닀.

absent keyphrase 에 λŒ€ν•œ metric μœΌλ‘œμ„œλŠ” semantic similarity λ₯Ό κ³ λ €ν•΄μ„œ μ œμ•ˆν•˜λŠ” evaluation metric 이 ν•„μš”ν•΄λ³΄μ΄λ©° human evaluation 이 ν•¨κ»˜ λœλ‹€λ©΄ 더 쒋을 것 κ°™λ‹€.

BERTScore: Evaluating Text Generation with BERT 와 BLEURT: Learning Robust Metrics for Text Generation λ₯Ό μ°Έκ³ ν•˜λ©΄ 쒋을 것 κ°™λ‹€.

JudePark96 commented 3 years ago

1. Model Architecture

기본적으둜 Seq2Seq (Sequence-to-Sequence) 와 Copy Mechanism, Attention 을 μ΄μš©ν•œ neural network 의 ν˜•νƒœλ₯Ό 가지고 μžˆλ‹€. Decoding Level μ—μ„œλŠ” beam search λ₯Ό μ‚¬μš©ν•œλ‹€.

Mechanisms for Diverse Generation

Generation Model 이 가지고 μžˆλŠ” 문제점이라면 generated value κ°€ ground truth 에 μΉ˜μš°μΉ˜λŠ” κ²½ν–₯이 μ‘΄μž¬ν•œλ‹€λŠ” 점이닀. κ·Έλ ‡κΈ° λ•Œλ¬Έμ— Diversity λ₯Ό κ³ λ €ν•˜λŠ” 것은 맀우 μ€‘μš”ν•˜λ‹€.

Screen Shot 2020-08-02 at 10 04 07 PM

Figure 1 : Keyphrase Diversity λ₯Ό ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ μ œμ•ˆ λͺ¨λΈμ˜ κ΅¬μ‘°μž„. A: Last state of bi-directional source encoder, B: Last state of target encoder, C: Decoder states where target tokens are either delimiters or eos tokens.

Orthogonal Regularization μ—μ„œ λͺ¨λ“  C 의 states λŠ” μ‚¬μš©λ¨. Target Encoder κ°€ ν•™μŠ΅λ˜λŠ” λ™μ•ˆ states A 와 B κ°„μ˜ mutual information 을 maximize ν•œλ‹€.

Semantic Coverage

Generated Phrases 의 Semantic Representation 에 μ§‘μ€‘ν•˜κΈ°μœ„ν•œ Mechanism μž„. 이λ₯Ό μœ„ν•΄ Decoder μ—μ„œ μƒμ„±λœ Tokens λ₯Ό Encode ν•˜λŠ” 또 ν•˜λ‚˜μ˜ 단방ν–₯ μˆœν™˜μ‹ κ²½λ§ GRU_{SC} λ₯Ό 좔가함. κ·Έλ ‡κ²Œ 되면 μ΅œμ’…μ μœΌλ‘œ λ‚˜μ˜€λŠ” Decoder 의 Hidden States λŠ” μ•„λž˜μ™€ κ°™λ‹€.

Screen Shot 2020-08-02 at 10 01 17 PM

Target Encoder λ₯Ό self-supervised fashion 으둜 ν•™μŠ΅ν•¨. Contrastive Predictive Coding 을 μ΄μš©ν•˜λŠ”λ° Noise Contrastive Estimation Loss λŠ” mutual information 의 lower bound λ₯Ό maximize ν•˜λŠ” νš¨κ³Όκ°€ 있음. => Target Encoder 둜 final hidden state h^M_{SC} λ₯Ό μΆ”μΆœν•˜κ³  이걸 target phrases 의 representation 으둜 μ‚¬μš©ν•¨. μœ„μ˜ representation κ³Ό source encoder 의 final hidden state h^T_e κ°„μ˜ mutual information 을 ν•™μŠ΅ν•¨.

Screen Shot 2020-08-02 at 10 44 50 PM

Semantic Coverage λŠ” generated keyphrase 의 representation 이 의미적으둜 source text 에 κ°€κΉκ²Œ ν•˜λ„λ‘ ν•˜λŠ” 것이 μ£Όμš” λͺ©μ μž„.

Orthogonal Regularization

Domain separation networks, Bousmalis et al. (2016) μœΌλ‘œλΆ€ν„° μ˜κ°μ„ λ°›μŒ.

Screen Shot 2020-08-02 at 10 51 51 PM

H = <h^{t_1}_d, ..., h^{n}_d> μž„. μœ„μ˜ μˆ˜μ‹μ„ 톡해 decoder hidden states κ°„μ˜ dot product λ₯Ό ν•œ ν›„, diag λ₯Ό μ œμ™Έν•œ λ²‘ν„°μ˜ L2 norm 을 ꡬ함. => diversity κ°€ ν–₯상됨!