Open e4exp opened 3 years ago
深層学習は、大規模なデータセットを利用できるようになったことで、さまざまな設定で特別な成功を収めています[Krizhevskyら、2012年、Devlinら、2018年、Brownら、2020年、Dosovitskiyら、2020年]。 このような大規模なデータセットにより、ニューラルネットワークは、関心のあるタスクの解決に適応したデータの有用な表現を学習することができます。 残念ながら、そのような大規模データセットを取得し、必要な時間ニューラルネットワークを訓練するには、法外なコストがかかる場合がある。 この問題を軽減する方法の一つは、情報量の多い小さなデータセットを構築することです。 このための直接的なアプローチとしては、データセットの代表的なサブセット(コアセット)を選択することや、低次元の投影を行って特徴数を減らすことなどがある。 しかし、このような手法では、データセット全体の粗い近似値しか得られないため、性能とデータセットサイズの間にトレードオフが生じるのが一般的である。 対照的に、データセット蒸留のアプローチは、データセットサイズを均等化したときに自然の対応物よりも情報量が多いデータセットを合成することである[Wang et al., 2018, Bohdal et al., 2020, Nguyen et al., 2021, Zhao and Bilen, 2021]。 そのような結果として得られるデータセットは、自然の画像の分布からは生じないが、それにもかかわらず、ニューラルネットワークに有用な特徴を捉えることができ、その能力は依然として神秘的であり、十分に理解されるには程遠いものである[Ilyasら、2019年、Huhら、2016年、Hermann and Lampinen、2020年]。 そのようなより小さい、抽出されたデータセットのアプリケーションは多様である。トレーニングデータセットによってスケールが悪くなるノンパラメトリック手法(例えば、最近傍やカーネルリッジ回帰など)では、縮小されたデータセットを持つことで、関連するメモリや推論のコストが減少する。 ニューラルネットワークのトレーニングのために、このような蒸留されたデータセットは、継続的な学習における再生方法の有効性を高めたり[Borsos et al., 2020]、ニューラルアーキテクチャの検索を加速するのに役立つ[Zhao et al., 2021, Zhao and Bilen, 2021]など、いくつかの応用が文献に見られる。 本論文では、Nguyenら[2021]の手法の大規模な拡張を行い、新しい最先端(SOTA)のデータセットの蒸留結果を得ました。 具体的には、Nguyenら[2021]で最初に開発されたアルゴリズムKIP(Kernel Inducing Points)とLS(Label Solve)を、学習ごとに数百のアクセラレータを利用する新規の分散メタ学習フレームワークを実装することで、無限に広い畳み込みネットワークに適用します。 このようなリソースが必要なのは,現代の画像分類モデルに存在するコンポーネントである畳み込み層とプーリング層(詳細は§Bを参照)から構成される無限に広いニューラルネットワークを使用するための計算コストが必要だからです. その結果、カーネルリッジ回帰とニューラルネットワークの学習の両方に有効なデータセットを得ることができました。 さらに、KIPが学習する画像とラベルの予備的な研究を開始します。 学習されたデータの視覚的および定量的な分析を行い、その解釈可能性、次元およびスペクトルの特性に関して、いくつかの驚くべき結果を得ました。 KIPとLSが学習したデータの有効性を考えると、これらをよりよく理解することが、ニューラルネットワークにおける特徴学習の理解に役立つと考えています。
要約すると、我々の貢献は以下の通りです。
機械学習アルゴリズムの有効性は、大量のデータから有用な特徴を抽出できるかどうかで決まる。 モデルやデータセットのサイズが大きくなるにつれて、大規模なデータセットを大幅に小さくしながらも性能の高いデータセットに圧縮するデータセット蒸留法は、学習効率や有用な特徴抽出の点で価値が高くなる。 この目的のために、我々は新しい分散カーネルベースのメタ学習フレームワークを適用して、無限に広い畳み込みニューラルネットワークを用いたデータセット蒸留で最先端の結果を達成した。 例えば、わずか10個のデータポイント(元のデータセットの0.02%)を用いて、CIFAR-10画像分類タスクにおいて64%以上のテスト精度を得ることができ、これまでの最高テスト精度である40%を大幅に上回ることができました。 この最先端の結果は、MNIST、Fashion-MNIST、CIFAR-10、CIFAR-100、およびSVHNの他の多くの設定にも及びます。 さらに、抽出したデータセットの予備的な分析を行い、自然に存在するデータとの違いを明らかにしました。