Open agatan opened 5 years ago
Transformer のような self-attention 機構が流行っていて、性能も良い。 が、すべての timestep について attention を計算するのでコストが高いという問題がある。(timestep ^ 2 の計算が必要なので)
Transformer のような self-attention 機構が流行っていて、性能も良い。 が、すべての timestep について attention を計算するのでコストが高いという問題がある。(timestep ^ 2 の計算が必要なので)