Open nekonookangae opened 4 years ago
状態表現空間(物理的システムを入力と出力と状態変数を使った一階連立微分方程式で表した数学的モデル)とNNをモデリング手法として使用することで、AGIのIntelligenceを最適化する手法。人間の学習ステージを模倣することが目的。モデルベース(環境モデル=状態遷移と報酬を予測する関数 を使用する)アルゴリズム。階層型(Feedfoward)NNを用いて報酬を推定。RLと同様にAction/State/Output/Reward(ASOR)環境で動作するが、RLと異なり決定論的な環境でのみ適用可能。
https://link.springer.com/content/pdf/10.1007%2F978-3-030-27005-6.pdf
Mohammadreza Alidoust, Mashhad, Iran
この論文では、現代の制御理論に基づいた人工総合知能(AGI)の統合学習および意思決定フレームワークを示します。 AGI Brainと呼ばれるフレームワークは、インテリジェンスを最適性の一形態と見なし、統一された戦略を使用してインテリジェンスを複製しようとします。 AGI Brainは、状態空間表現の強力なモデリング機能と、ニューラルネットワークの究極の学習機能を活用しています。 モデルは、周囲の世界を学習するために、人間の3つの学習段階をエミュレートします。 このモデルは、決定論的なシングルエージェント/マルチエージェントの世界で、3つの異なる連続およびハイブリッド(連続および離散)アクション/状態/出力/報酬(ASOR)スペースシナリオでテストされました。 成功したシミュレーション結果は、決定論的な世界におけるAGI Brainの多目的適用性を示しています。
一言でいうと
状態表現空間(物理的システムを入力と出力と状態変数を使った一階連立微分方程式で表した数学的モデル)とNNをモデリング手法として使用することで、AGIのIntelligenceを最適化する手法。人間の学習ステージを模倣することが目的。モデルベース(環境モデル=状態遷移と報酬を予測する関数 を使用する)アルゴリズム。階層型(Feedfoward)NNを用いて報酬を推定。RLと同様にAction/State/Output/Reward(ASOR)環境で動作するが、RLと異なり決定論的な環境でのみ適用可能。
論文リンク
https://link.springer.com/content/pdf/10.1007%2F978-3-030-27005-6.pdf
著者/所属機関
Mohammadreza Alidoust, Mashhad, Iran
投稿日付
概要
この論文では、現代の制御理論に基づいた人工総合知能(AGI)の統合学習および意思決定フレームワークを示します。 AGI Brainと呼ばれるフレームワークは、インテリジェンスを最適性の一形態と見なし、統一された戦略を使用してインテリジェンスを複製しようとします。 AGI Brainは、状態空間表現の強力なモデリング機能と、ニューラルネットワークの究極の学習機能を活用しています。 モデルは、周囲の世界を学習するために、人間の3つの学習段階をエミュレートします。 このモデルは、決定論的なシングルエージェント/マルチエージェントの世界で、3つの異なる連続およびハイブリッド(連続および離散)アクション/状態/出力/報酬(ASOR)スペースシナリオでテストされました。 成功したシミュレーション結果は、決定論的な世界におけるAGI Brainの多目的適用性を示しています。
新規性・差分
手法
結果
コメント
実装