supikiti / Awesome-tts-and-vc

Here is a summary of the conference papers we read.
7 stars 0 forks source link

IMPROVING END-TO-END SPEECH SYNTHESIS WITH LOCAL RECURRENT NEURAL NETWORK ENHANCED TRANSFORMER #10

Open supikiti opened 4 years ago

supikiti commented 4 years ago

リンク

https://ieeexplore.ieee.org/document/9054148

どんなもの?

TransformerにLocal-RNNを導入することにより短期的構造と長期的構造を効率よくモデリング可能なTransformerを提案 (LR-Transformer)

先行研究と比べてどこがすごい?

Position Embeddingsを使用せず短期的な構造をモデリング可能

技術と手法のキモはどこ?

Sequence全体をRNNでモデリングするのではなく,Sequenceを区切ったものをそれぞれ重みを共有したRNNへ 入力することで計算コストを抑え,局所構造をモデリング可能

どうやって有効だと検証した?

主観評価 (MOS)
Tacotron2 4.07
Transformer 4.22
LR-Transformer 4.34
Recording 4.45

議論はある?

次に読むべき論文