Open JudePark96 opened 3 years ago
λ³Έ λ Όλ¬Έμμλ μλ‘μ΄ evaluation metric μ μ μνλλ° μ΄λ κΈ°μ‘΄μ precision, recall κ·Έλ¦¬κ³ f1 μ λ°νμΌλ‘ ν metric μ΄λ€.
λͺ¨λΈμ νκ°νλ μμλ λͺ¨λΈμ΄ λ΄λμ prediction κ³Ό ground truth κ°μ κ΄κ³λ‘ μ μλ₯Ό λ΄λ¦΄ μ μλ€. prediction μ΄ true μ false, ground truth λν true, false λ‘ μκ°νλ€λ©΄ 2 * 2 νλ ¬λ‘ ννν μ μλ€.
True | False | |
---|---|---|
True | True Positive | False Positive |
False | False Negative | True Negative |
μ΄ λ κ° μΌμ΄μ€λ μλμ κ°λ€.
Precision (μ λ°λ) λ λͺ¨λΈμ΄ True λΌκ³ λΆλ₯ν κ² μ€μμ μ€μ True μΈ κ²μ νΌμΌν°μ§μ΄λ€. μμμ μλμ κ°λ€.
Positive Predictive Value λΌκ³ λΆλ¦¬μ°λ©° μλ₯Ό λ€μ΄ λ μ¨ μμΈ‘ λͺ¨λΈμ΄ λ§λ€λ‘ μμΈ‘νμ λ, μ€μ λ μ¨κ° λ§μλμ§ μ΄ν΄λ³΄λ μ§νλΌκ³ ν μ μλ€.
Recall (μ¬νμ¨) μ΄λ μ€μ True μΈ κ² μ€μμ λͺ¨λΈμ΄ True λΌκ³ μμΈ‘ν κ²μ νΌμΌν°μ§μ΄λ€. μμμ μλμ κ°λ€.
ν΅κ³νμμλ sensitivity λ‘ λΆλ¦¬λ©° μ€μ λ μ¨κ° λ§μ λ μ€μμ λͺ¨λΈμ΄ λ§λ€κ³ μμΈ‘ν λΉμ¨μ λνλΈ μ§νμ΄λ€. Precision κ³Ό Recall λ κ΄μ μ μ°¨μ΄κ° μλλ° μ μλ λͺ¨λΈμ μ μ₯μμ, νμλ μ€μ μ λ΅μ μ μ₯μμ λ°λΌλ³Έλ€λ κ²μ΄ μ£Όμν μ°¨μ΄μ μ΄λ€.
F1 μ΄λ Precision κ³Ό Recall μ μ‘°ννκ· μ΄λ©° μμμ μλμ κ°λ€.
F1 μ ν΅νμ¬ imbalance ν λ°μ΄ν° μ§ν©μ κ°μ§κ³ μμ λ λͺ¨λΈμ μ±λ₯μ λ³΄λ€ μ ννκ² νκ°ν μ μλ€.
Keyphrase Generation λͺ¨λΈμ νκ°ν λ μ£Όλ‘ top-k prediction λ₯Ό μ¬μ©νλ€. μ΄λ precision, recall κ³Ό F1 μ κ³μ°ν λ constant k λΌλ 쑰건μ λ£λ κ±΄λ° μλμ κ°μ΄ μ μν μ μλ€.
evaluation μ μ¬μ©λλ μμ±λ keyphrase μ μλ νκ° νμ§μ ν° μν₯μ λ―ΈμΉ μ μλ€. μ΄ λ
Όλ¬Έμμλ
μΉμ 1μμ λ Όμν κ²μ²λΌ νκ°μ μ¬μ© λ μμ± λ ν€ νλ μ΄μ¦μ μλ κ²°κ³Ό νκ° λ©νΈλ¦μ νμ§μ μ€λν μν₯μ λ―ΈμΉ μ μμ΅λλ€. μ΄λ ν λ¬Έμ μ μ΄ μλμ§ μμ νλ€.
R@kμ κ²½μ° μ€μ ground truth μ μλ₯Ό λΆλͺ¨λ‘ νκ³ μκΈ° λλ¬Έμ top-k prediction κ³Ό ground truth κ°μ κ΅μ§ν©κ³Ό ground truth κ°μ λΉμ¨μ κ³μ°νκ² λλ€λ©΄ λΆμ νν μ μμμ μ μ μλ€. μ΄λ¬ν κ²½ν₯μ λͺ¨λΈμ νκ°ν¨μ μμ΄μ μ’μ§ μμ μν₯μ λΌμΉλλ° λ³Έ λ Όλ¬Έμμ μ£Όμ₯νκΈΈ νμ¬ λͺ¨λ keyphrase generation μ°κ΅¬μ evaluation metric μ μμ metric μ μ¬μ©νλ€κ³ νλ€.
μ΄λ₯Ό ν΄κ²°νκΈ° μν κ°λ¨ν λ°©λ²μ κ°κ°μ λ°μ΄ν° μμ μ k λΌλ variable number λ₯Ό μ§μ νλ κ²μ΄λ€.
F1@O : O λ ground truth keyphrase μ κ°μλ₯Ό λνλ΄λ©° μ΄ κ²½μ° k = |ground truth| μ΄λ©° μ΄λ κ°κ°μ λ°μ΄ν° μμ μμ evaluation μ μν΄μ μ¬μ©λλ predicated phrases λ ground truth keyphrases μ μμ λμΌν¨μ μλ―Ένλ€.
F1@M : M μ predicted keyphrases μ μλ₯Ό μλ―Ένλ€. μ΄ κ²½μ° k = |predicted keyphrases| μ΄λ©° F1@k μ λ€λ₯΄κ² truncation μμ΄ λͺ¨λ predicted phrases λ₯Ό evaluation μ μ¬μ©νλ€.
k λ₯Ό λ€λ₯Έ λ³μλ‘ κ°λ¨ν νμ₯ν¨μΌλ‘μ¨ F1@O μ F1@ Mμ κ°κ°μ λ¬Έμμ λν΄ κ°λ³μ μΈ μμ phrases μ νΉμ±μ λ°μν μ μμΌλ©° λͺ¨λΈμ λ€μκ³Ό κ°μ κ²½μ° μ΅λ F1 μ μ 1.0μ λ¬μ± ν μ μλ€. F1@O μ λ λ€λ₯Έ μ₯μ μ λͺ¨λΈ μΆλ ₯κ³Ό λ 립μ μ΄λ―λ‘ κΈ°μ‘΄ λͺ¨λΈμ λΉκ΅νλ λ° μ¬μ©ν μ μλ€λ κ²μλ€.
λ³Έ λ Όλ¬Έμμ μ§μ ν κ²μ generated keyphrases μ κ°λ³μ νΉμ±μΌλ‘ μΈν λ¬Έμ μ΄λ€. κ·Έλ κΈ° λλ¬Έμ ground truth μ μ νν μΌμΉνλ κ²½μ°μλ F1 μ μ΅λ μ μμΈ 1.0 μ λ¬μ±ν μ μλ€. νμ§λ§ k λ₯Ό κ°κ° ground truth, predicted phrases μ μλ‘ νμ₯ν¨μΌλ‘μ μ΄λ¬ν λ¬Έμ μ μ ν΄κ²°νλ€κ³ νλ€.
κ°μΈμ μΈ μ견μΌλ‘λ μλ‘μ΄ evaluation metric μ μ μνλ€κ³ νκΈ°μ κΈ°μ¬λκ° ν° κ² κ°μ§λ μλ€. λν μλ‘μ΄ evaluation μ λν human evaluation μ΄ μλ κ²λ μ§μ ν μ μλ λΆλΆ μ€ νλμΈ κ² κ°λ€.
keyphrases λ absent keyphrase μ present keyphrase λ‘ λλλλ° μ μλ metric μ present keyphrase μ λν΄μλ§ μ¬μ©ν μ μλ€. absent keyphrase μ λν μ μ μλ€λ κ² λν μ£Όμν μ§μ μ μ΄λ€.
absent keyphrase μ λν metric μΌλ‘μλ semantic similarity λ₯Ό κ³ λ €ν΄μ μ μνλ evaluation metric μ΄ νμν΄λ³΄μ΄λ©° human evaluation μ΄ ν¨κ» λλ€λ©΄ λ μ’μ κ² κ°λ€.
BERTScore: Evaluating Text Generation with BERT μ BLEURT: Learning Robust Metrics for Text Generation λ₯Ό μ°Έκ³ νλ©΄ μ’μ κ² κ°λ€.
κΈ°λ³Έμ μΌλ‘ Seq2Seq (Sequence-to-Sequence) μ Copy Mechanism, Attention μ μ΄μ©ν neural network μ ννλ₯Ό κ°μ§κ³ μλ€. Decoding Level μμλ beam search λ₯Ό μ¬μ©νλ€.
Generation Model μ΄ κ°μ§κ³ μλ λ¬Έμ μ μ΄λΌλ©΄ generated value κ° ground truth μ μΉμ°μΉλ κ²½ν₯μ΄ μ‘΄μ¬νλ€λ μ μ΄λ€. κ·Έλ κΈ° λλ¬Έμ Diversity λ₯Ό κ³ λ €νλ κ²μ λ§€μ° μ€μνλ€.
Figure 1 : Keyphrase Diversity λ₯Ό ν₯μμν€κΈ° μν μ μ λͺ¨λΈμ ꡬ쑰μ. A: Last state of bi-directional source encoder, B: Last state of target encoder, C: Decoder states where target tokens are either delimiters or eos tokens.
Orthogonal Regularization μμ λͺ¨λ C μ states λ μ¬μ©λ¨. Target Encoder κ° νμ΅λλ λμ states A μ B κ°μ mutual information μ maximize νλ€.
Generated Phrases μ Semantic Representation μ μ§μ€νκΈ°μν Mechanism μ. μ΄λ₯Ό μν΄ Decoder μμ μμ±λ Tokens λ₯Ό Encode νλ λ νλμ λ¨λ°©ν₯ μνμ κ²½λ§ GRU_{SC} λ₯Ό μΆκ°ν¨. κ·Έλ κ² λλ©΄ μ΅μ’ μ μΌλ‘ λμ€λ Decoder μ Hidden States λ μλμ κ°λ€.
Target Encoder λ₯Ό self-supervised fashion μΌλ‘ νμ΅ν¨. Contrastive Predictive Coding μ μ΄μ©νλλ° Noise Contrastive Estimation Loss λ mutual information μ lower bound λ₯Ό maximize νλ ν¨κ³Όκ° μμ. => Target Encoder λ‘ final hidden state h^M_{SC} λ₯Ό μΆμΆνκ³ μ΄κ±Έ target phrases μ representation μΌλ‘ μ¬μ©ν¨. μμ representation κ³Ό source encoder μ final hidden state h^T_e κ°μ mutual information μ νμ΅ν¨.
Semantic Coverage λ generated keyphrase μ representation μ΄ μλ―Έμ μΌλ‘ source text μ κ°κΉκ² νλλ‘ νλ κ²μ΄ μ£Όμ λͺ©μ μ.
Domain separation networks, Bousmalis et al. (2016) μΌλ‘λΆν° μκ°μ λ°μ.
H = <h^{t_1}_d, ..., h^{n}_d> μ. μμ μμμ ν΅ν΄ decoder hidden states κ°μ dot product λ₯Ό ν ν, diag λ₯Ό μ μΈν 벑ν°μ L2 norm μ ꡬν¨. => diversity κ° ν₯μλ¨!
Contents
1. Model Architecture
2. Evaluating Keyphrase Generation
3. Datasets and Experiments
4. Conclusion