Recent advances in deep learning have mainly relied on Transformers due totheir data dependency and ability to learn at scale. The attention module inthese architectures, however, exhibits quadratic time and space in input size,limiting their scalability for long-sequence modeling. Despite recent attemptsto design efficient and effective architecture backbone for multi-dimensionaldata, such as images and multivariate time series, existing models are eitherdata independent, or fail to allow inter- and intra-dimension communication.Recently, State Space Models (SSMs), and more specifically Selective StateSpace Models, with efficient hardware-aware implementation, have shownpromising potential for long sequence modeling. Motivated by the success ofSSMs, we present MambaMixer, a new architecture with data-dependent weightsthat uses a dual selection mechanism across tokens and channels, calledSelective Token and Channel Mixer. MambaMixer connects selective mixers using aweighted averaging mechanism, allowing layers to have direct access to earlyfeatures. As a proof of concept, we design Vision MambaMixer (ViM2) and TimeSeries MambaMixer (TSM2) architectures based on the MambaMixer block andexplore their performance in various vision and time series forecasting tasks.Our results underline the importance of selective mixing across both tokens andchannels. In ImageNet classification, object detection, and semanticsegmentation tasks, ViM2 achieves competitive performance with well-establishedvision models and outperforms SSM-based vision models. In time seriesforecasting, TSM2 achieves outstanding performance compared to state-of-the-artmethods while demonstrating significantly improved computational cost. Theseresults show that while Transformers, cross-channel attention, and MLPs aresufficient for good performance in time series forecasting, neither isnecessary.
Translation (by gpt-3.5-turbo)
最近の深層学習の進歩は、データ依存性と大規模な学習能力によって、主にTransformersに依存してきた。しかしながら、これらのアーキテクチャにおける注意モジュールは、入力サイズに対して二次の時間と空間を示し、長いシーケンスモデリングにおいてスケーラビリティが制限される。最近の試みにもかかわらず、画像や多変量時系列などの多次元データに対する効率的かつ効果的なアーキテクチャバックボーンの設計は、既存のモデルがデータに依存しないか、または次元間および内部次元間の通信を許可しないという問題がある。最近、効率的なハードウェアに適した実装を持つState Space Models(SSMs)、特にSelective State Space Modelsが、長いシーケンスモデリングにおいて有望な可能性を示している。SSMsの成功を受けて、我々はMambaMixerを提案する。これは、データ依存の重みを使用し、トークンとチャネル全体でデュアル選択メカニズムを使用するSelective Token and Channel Mixerと呼ばれる新しいアーキテクチャである。MambaMixerは、重み付き平均化メカニズムを使用して選択的ミキサーを接続し、各層が初期の特徴に直接アクセスできるようにする。概念の証明として、MambaMixerブロックに基づいたVision MambaMixer(ViM2)およびTime Series MambaMixer(TSM2)アーキテクチャを設計し、さまざまなビジョンおよび時系列予測タスクでのパフォーマンスを探究する。我々の結果は、トークンとチャネルの両方にわたる選択的ミキシングの重要性を強調している。ImageNet分類、物体検出、および意味的セグメンテーションタスクでは、ViM2は確立されたビジョンモデルと競争力のあるパフォーマンスを達成し、SSMベースのビジョンモデルを上回る。時系列予測では、TSM2は最先端の手法と比較して優れたパフォーマンスを達成し、著しく改善された計算コストを示している。これらの結果は、Transformers、クロスチャネルの注意、およびMLPが時系列予測において良好なパフォーマンスを発揮するために十分である一方、どちらも必要ではないことを示している。
Summary (by gpt-3.5-turbo)
最近の深層学習の進歩は、データ依存性と大規模な学習能力によって、主にTransformersに依存してきた。しかし、長いシーケンスモデリングにおいてスケーラビリティが制限される問題がある。State Space Models(SSMs)に着想を得たMambaMixerは、Selective Token and Channel Mixerを使用した新しいアーキテクチャであり、画像や時系列データにおいて優れたパフォーマンスを示す。ViM2はビジョンタスクで競争力のあるパフォーマンスを達成し、TSM2は時系列予測で優れた結果を示す。これらの結果は、TransformersやMLPが時系列予測において必要ないことを示唆している。
URL
Affiliations
Abstract
Translation (by gpt-3.5-turbo)
Summary (by gpt-3.5-turbo)