Open JudePark96 opened 4 years ago
μ΅κ·Όμ μ κ·Όμ λͺ¨λΈμ΄ keyphrase λ₯Ό μμΈ‘ν λΏλ§ μλλΌ keyphrase μ μ λν κ²°μ ν΄μΌνλ€. μ΄λ¬ν μ κ·Όμ sequential decoding process λ₯Ό μ¬μ©νκ³ μμλ€. κ·Έλ°λ°, μ΄λ¬ν process λ keyphrase μ μ‘΄μ¬νλ intrinsic hierarchical compositionality λ₯Ό 무μνλ€. λ λμκ°μ μ΄μ μ μ κ·Όμ duplicated keyphrases λ₯Ό μμ±νλ κ²½ν₯μ΄ μκ³ μ΄λ computing resource μ time μ λλΉνλ€.
μ΄λ¬ν λ¬Έμ μ μ 극볡νκΈ° μν΄ λ³Έ λ Όλ¬Έμμλ exclusive hierarchical decoding framework that includes a hierarchical decoding process and either a soft or a hard exclusion mechanism μ μ μνλ€.
Sequential decoding method λ₯Ό ν΅νμ¬ keyphrases λ₯Ό μμ±νλ 건 μμμ μΈκΈνλ―μ΄ λ κ°μ§ λ¬Έμ μ μ΄ μλ€.
λ³Έ λ Όλ¬Έμμλ μμ λ¬Έμ λ€μ 극볡νκΈ° μν΄ Novel exclusive hierarchical decoding framework λ₯Ό μ μν¨.
Figure 2 : exclusive hierarchical decoding μ λν κ·Έλ¦Ό. hi λ i-th PD step μ hidden state μ. h{i, j} λ j-th WD hidden state κ³Ό corresponding ν¨. [neopd] token μ PD κ° λλμ§ μμλ€λ λ»μ. [eowd] token μ WD κ° terminate νλ€λ λ»μ. [eopd] token μ PD κ° λλ¬κ³ λͺ¨λ decoding process κ° λ§λ¬΄λ¦¬λμλ€λ λ»μ. [m1, ..., m{l_x}] μ document λ‘λΆν° encoding λ hidden states λ₯Ό μλ―Έν¨. PD-Attention κ³Ό WD-Attention μ κ°κ° PD μ WD μμ μ¬μ©λλ attention mechanism μ. \betai λ i-th step μμμ PD attention score μ. \hat{h}{i, j} μ WD attentional vector μ. EL/ES λ exclusive loss λλ exclusive search κ° μ¬μ©λμμμ μλ―Έν¨.
Context-aware representation μ μ»κΈ° μν΄ two-layered bi-directional GRU λ₯Ό encoder λ‘ μ¬μ©νλ€.
Keyphrase Generation μ λ§μ λ Όλ¬Έμμ GRU λ₯Ό encoder λ‘ μ¬μ©νκ³ μλ€.
Phrase-level decoder λ uni-directional GRU λ₯Ό μ¬μ©νμλ€.
\widetilde{\h_{i-1, end}} λ (i-1)-th PD step μμ WD step μ κ±°μΉ attentional vector μ΄λ€. μμμ λ°λ₯΄λ©΄ WD step μ κ±°μΉ hidden state λ₯Ό phrase level decoder μ next state μ λ€μ΄κ°λ©° μ΄κ²μ΄ recursive νκ² λμνλ€. κ·Έλ¦¬κ³ μ΄ representation κ³Ό encoder μ representation μ λ°νμΌλ‘ μλμ μμμ ν΅ν΄ PD attention score λ₯Ό μΆμΆνλ€.
eq (3) μ $h_i$ λ PD μ hidden state μ΄λ©° $W_1$ μ parameter matrix, $m_n$ μ encoder μ representation μ΄λ€. μ΄ μμμ bi-linear transformation μΌλ‘ ꡬμ±λμ΄μ ΈμμΌλ©° softmax λ₯Ό ν΅νμ¬ (2) μ κ°μ΄ attention score λ₯Ό μΆμΆνλ€.
$i$ λ PD-step, $j-1$ μ WD-step μ μλ―Ένλ€. GRU μ$h{i, j-1}$ μΌλ‘ μ°μ°νμ¬ $h{i, j}$ λ₯Ό μ»λλ€.
νΉμ΄μ μ PD-Attention Score λ₯Ό ν΅νμ¬ WD-Attention Score λ₯Ό scale νκ³ μλ€λ μ μ΄λ€.
μ΄λ₯Ό ν΅ν΄ λμ¨ hidden state λ‘ decoding μ νλλ° copy mechanism μ μ¬μ©νλ€.
WD Process λ [eowd] token μ΄ λμμ λ terminate νλ€. hierarchical decoding μ [eopd] token μ΄ λμμ λ terminate νλ€.
One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases κ°μ μ΄μ μ μ κ·Όμμλ μ£Όλ‘ decoding process μ λν contribution μ΄ λ§μλ€. μΈκΈν λ Όλ¬Έμ orthogonal regularization, semantic coverage λΌλ contribution λν decoding process μ κ΄ν λΆλΆμ΄μλ€. νμ§λ§ μ¬μ ν decoding process λ sequential process λ‘ μ§νλλ€λ νκ³μ μ κ°μ§κ³ μμλ€.
λ³Έ λ Όλ¬Έμμλ μ΄λ¬ν νκ³μ μ 극볡νκΈ° μν΄ decoding process λ₯Ό hierarchical process λ‘ μ§ννλ€λ κ²μ΄ main contribution μ΄λΌκ³ μκ°νλ€.
λ³Έ λ Όλ¬Έκ³Ό μ΄μ μ μ κ·Όμ λ³Έ κ²°κ³Ό, decoding process μ κ΄ν contribution μ΄ μ£Όμλ€. μ°¨λ³μ μ μ£Όλ μ μ μ¬νμ μλμ κ°λ€κ³ μκ°νλ€.
λ±μ΄ μμ κ² κ°λ€.
Contents
1. μ΄λ‘μ λλΌκ³ λ§νκ³ μμ΄ ?
2. μ£Όμ κΈ°μ¬μ μ λμΌ ?
3. μ΄μ μ μ κ·Όκ³Όλ λκ° λ€λ₯Έ κ² κ°μ ?
4. μ΄λ€ κ±Έ μ μν μ μμκΉ ?
5. λ€μ λ Όλ¬Έμ 무μμ μ½μ΄μΌν κΉ ?