Open e4exp opened 3 years ago
ユーザーインターフェース(UI)要素の代替テキストなどの自然言語による記述は、アクセシビリティや言語ベースのインタラクション全般にとって非常に重要です。 しかし、モバイルUIではこのような記述が常に不足しています。 我々は、ユーザーインターフェースの画像と構造の両方を含むマルチモーダルな入力から、UI要素の言語説明を自動的に生成する新しいタスクである、ウィジェットキャプションを提案する。 我々は、クラウドソーシングを用いて、ウィジェットキャプションのための大規模なデータセットを収集した。 このデータセットには、21,750個のUI画面上の61,285個のUI要素に注釈を付けるために、人間の作業者が作成した162,860個の言語フレーズが含まれています。 このデータセットを徹底的に分析し、一連のディープモデルを学習・評価することで、各特徴モダリティや学習戦略の選択が、予測されるキャプションの品質にどのような影響を与えるかを調べます。 このような課題設定、データセット、ベンチマークモデルは、言語とユーザーインターフェースを結びつける、この新しいマルチモーダルキャプションタスクの強固な基盤となっています。
ユーザーインターフェース(UI)要素の代替テキストなどの自然言語による記述は、アクセシビリティや言語ベースのインタラクション全般にとって非常に重要です。 しかし、モバイルUIではこのような記述が常に不足しています。 我々は、ユーザーインターフェースの画像と構造の両方を含むマルチモーダルな入力から、UI要素の言語説明を自動的に生成する新しいタスクである、ウィジェットキャプションを提案する。 我々は、クラウドソーシングを用いて、ウィジェットキャプションのための大規模なデータセットを収集した。 このデータセットには、21,750個のUI画面上の61,285個のUI要素に注釈を付けるために、人間の作業者が作成した162,860個の言語フレーズが含まれています。 このデータセットを徹底的に分析し、一連のディープモデルを学習・評価することで、各特徴モダリティや学習戦略の選択が、予測されるキャプションの品質にどのような影響を与えるかを調べます。 このような課題設定、データセット、ベンチマークモデルは、言語とユーザーインターフェースを結びつける、この新しいマルチモーダルキャプションタスクの強固な基盤となっています。