Open fulfulggg opened 3 days ago
本研究の主な目的は、リアルタイムのカメラ映像からアメリカ手話(ASL)のデータを取得し、テキストに変換することです。さらに、テキストをリアルタイムで手話に変換できるフレームワークの構築にも焦点を当て、聴覚障害者の言語障壁を解消することを目指しています。本研究では、ASL認識にYOLOモデルと畳み込みニューラルネットワーク(CNN)モデルを使用しました。YOLOモデルはリアルタイムで実行され、事前知識なしで生のビデオストリームから識別的な時空間特徴を自動的に抽出し、設計上の欠陥を排除します。CNNモデルも手話検出のためにリアルタイムで実行されます。テキストベースの入力を手話に変換するために、文を入力として受け取り、キーワードを特定し、入力された文に対応する手話をリアルタイムで実行するビデオを表示する新しいフレームワークを導入しました。私たちの知る限り、アメリカ手話(ASL)における双方向のリアルタイム手話通信を実証した研究はほとんどありません。
@yukihiko-fuyuki が以下のラベルを提案し、適用しました:
この研究は、手話とテキストをリアルタイムで相互に変換するシステムを開発しました。
この研究の新規性は、ASLのリアルタイムでの双方向変換を実現した点にあります。 これにより、聴覚障害者と聴者のコミュニケーション障壁の解消に貢献することが期待されます。
タイトル: 双方向手話コミュニケーションの向上:YOLOv8とNLPを統合したリアルタイム手話認識・翻訳
リンク: https://arxiv.org/abs/2411.13597
概要:
本研究の主な目的は、リアルタイムのカメラ映像からアメリカ手話(ASL)のデータを取得し、テキストに変換することです。さらに、テキストをリアルタイムで手話に変換できるフレームワークの構築にも焦点を当て、聴覚障害者の言語障壁を解消することを目指しています。本研究では、ASL認識にYOLOモデルと畳み込みニューラルネットワーク(CNN)モデルを使用しました。YOLOモデルはリアルタイムで実行され、事前知識なしで生のビデオストリームから識別的な時空間特徴を自動的に抽出し、設計上の欠陥を排除します。CNNモデルも手話検出のためにリアルタイムで実行されます。テキストベースの入力を手話に変換するために、文を入力として受け取り、キーワードを特定し、入力された文に対応する手話をリアルタイムで実行するビデオを表示する新しいフレームワークを導入しました。私たちの知る限り、アメリカ手話(ASL)における双方向のリアルタイム手話通信を実証した研究はほとんどありません。