双方向手話コミュニケーションの向上：YOLOv8とNLPを統合したリアルタイム手話認識・翻訳

fulfulggg commented 3 days ago

タイトル: 双方向手話コミュニケーションの向上：YOLOv8とNLPを統合したリアルタイム手話認識・翻訳

リンク: https://arxiv.org/abs/2411.13597

概要:

本研究の主な目的は、リアルタイムのカメラ映像からアメリカ手話（ASL）のデータを取得し、テキストに変換することです。さらに、テキストをリアルタイムで手話に変換できるフレームワークの構築にも焦点を当て、聴覚障害者の言語障壁を解消することを目指しています。本研究では、ASL認識にYOLOモデルと畳み込みニューラルネットワーク（CNN）モデルを使用しました。YOLOモデルはリアルタイムで実行され、事前知識なしで生のビデオストリームから識別的な時空間特徴を自動的に抽出し、設計上の欠陥を排除します。CNNモデルも手話検出のためにリアルタイムで実行されます。テキストベースの入力を手話に変換するために、文を入力として受け取り、キーワードを特定し、入力された文に対応する手話をリアルタイムで実行するビデオを表示する新しいフレームワークを導入しました。私たちの知る限り、アメリカ手話（ASL）における双方向のリアルタイム手話通信を実証した研究はほとんどありません。

fulfulggg commented 3 days ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

object-detection
natural-language-processing
real-time-application

fulfulggg commented 3 days ago

論文要約

この研究は、手話とテキストをリアルタイムで相互に変換するシステムを開発しました。

手話→テキスト： カメラ映像からアメリカ手話(ASL)を認識し、テキストに変換します。
- 物体検出に優れたYOLOv8と画像認識に強いCNNを使って、リアルタイムでの認識を実現しています。
テキスト→手話： 入力されたテキストをASLの動画に変換します。
- テキストからキーワードを抽出し、対応する手話の動画を生成・表示します。

この研究の新規性は、ASLのリアルタイムでの双方向変換を実現した点にあります。これにより、聴覚障害者と聴者のコミュニケーション障壁の解消に貢献することが期待されます。

fulfulggg / Information-gathering