Open fulfulggg opened 7 hours ago
視覚における自己回帰モデルのスケールアップは、大規模言語モデルほど有益であるとは証明されていません。本研究では、テキストから画像への生成を例に、このスケーリング問題を調査し、2つの重要な要素、すなわち、モデルが離散トークンと連続トークンのどちらを使用するか、そしてBERTやGPTのようなTransformerアーキテクチャを用いてランダムまたは固定ラスタ順にトークンが生成されるかどうか、に焦点を当てます。実験の結果、すべてのモデルが検証損失の点で効果的にスケールする一方で、FID、GenEvalスコア、視覚的品質によって測定される評価性能は、異なる傾向を示すことがわかりました。連続トークンに基づくモデルは、離散トークンを使用するモデルよりも、大幅に優れた視覚的品質を実現します。さらに、生成順序と注意機構はGenEvalスコアに大きく影響します。ランダム順序モデルは、ラスタ順序モデルと比較して、GenEvalスコアが著しく向上します。これらの知見に基づき、連続トークン上でランダム順序自己回帰モデルであるFluidを学習させました。Fluid 10.5Bモデルは、MS-COCO 30Kにおいて、ゼロショットFIDで6.16、GenEvalベンチマークで総合スコア0.69という、新たな最先端の成果を達成しました。本研究の知見と成果が、今後、視覚モデルと言語モデルのスケーリングのギャップをさらに埋める取り組みを促進することを期待します。
結論: 本研究は、連続トークンとランダムなトークン処理が、高性能な画像生成AIの開発に有効であることを示した。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
タイトル: Fluid: 連続トークンを用いた自己回帰型テキスト画像生成モデルのスケーリング
リンク: https://arxiv.org/abs/2410.13863
概要:
視覚における自己回帰モデルのスケールアップは、大規模言語モデルほど有益であるとは証明されていません。本研究では、テキストから画像への生成を例に、このスケーリング問題を調査し、2つの重要な要素、すなわち、モデルが離散トークンと連続トークンのどちらを使用するか、そしてBERTやGPTのようなTransformerアーキテクチャを用いてランダムまたは固定ラスタ順にトークンが生成されるかどうか、に焦点を当てます。実験の結果、すべてのモデルが検証損失の点で効果的にスケールする一方で、FID、GenEvalスコア、視覚的品質によって測定される評価性能は、異なる傾向を示すことがわかりました。連続トークンに基づくモデルは、離散トークンを使用するモデルよりも、大幅に優れた視覚的品質を実現します。さらに、生成順序と注意機構はGenEvalスコアに大きく影響します。ランダム順序モデルは、ラスタ順序モデルと比較して、GenEvalスコアが著しく向上します。これらの知見に基づき、連続トークン上でランダム順序自己回帰モデルであるFluidを学習させました。Fluid 10.5Bモデルは、MS-COCO 30Kにおいて、ゼロショットFIDで6.16、GenEvalベンチマークで総合スコア0.69という、新たな最先端の成果を達成しました。本研究の知見と成果が、今後、視覚モデルと言語モデルのスケーリングのギャップをさらに埋める取り組みを促進することを期待します。