IMPROVING END-TO-END SPEECH SYNTHESIS WITH LOCAL RECURRENT NEURAL NETWORK ENHANCED TRANSFORMER

リンク

TransformerにLocal-RNNを導入することにより短期的構造と長期的構造を効率よくモデリング可能なTransformerを提案 (LR-Transformer)

Position Embeddingsを使用せず短期的な構造をモデリング可能

Sequence全体をRNNでモデリングするのではなく，Sequenceを区切ったものをそれぞれ重みを共有したRNNへ入力することで計算コストを抑え，局所構造をモデリング可能