e4exp / paper_manager_abstract

0 stars 0 forks source link

CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models #689

Open e4exp opened 2 years ago

e4exp commented 2 years ago

学習の離散化は、観測データの複数の説明因子と生成因子からなる低次元表現を見つけることを目的としている。 観測データから独立した因子を分離するためには、一般的に変分自動符号化器(VAE)の枠組みが用いられる。 しかし、実際のシナリオでは、意味を持つ要因は必ずしも独立ではありません。 むしろ、これらの要因を依存させるような因果構造が存在するかもしれない。 そこで我々は、CausalVAEと名付けたVAEに基づく新しいフレームワークを提案する。 このフレームワークには、独立した外因性因子を、データ中の因果関係のある概念に対応する因果関係のある内因性因子に変換するCausal Layerが含まれる。 さらに、モデルの識別性を分析し、提案した観測データから学習したモデルが、ある程度まで真のモデルを回復することを示す。 実験は、合成語や実在する単語のベンチマークであるCelebAを含む様々なデータセットで行われた。 その結果、CausalVAEによって学習された因果表現は、意味的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係が良好な精度で識別されることがわかった。 さらに、提案されたCausalVAEモデルは、因果関係のある要素に対する「do-operation」を通じて、反実例データを生成できることを示しています。

e4exp commented 2 years ago

1. はじめに

Disentangled representation learning (離散表現学習) は,コンピュータビジョン,音声・自然言語処理,レコメンダーシステムなど,さまざまな分野で重要な役割を果たしている[9, 21, 8]. その理由は,データの潜在的な離接表現を学習することで,モデルの性能を向上させることができるからである. すなわち,データの離接表現を学習することで,モデルの性能,すなわち,一般化能力,敵対的攻撃に対する頑健性,および,説明能力を向上させることができる. 曖昧な表現を学習するための最も一般的なフレームワークの1つは、変分オートエンコーダー(VAE)であり、根本的な説明因子を分離するために訓練された深い生成モデルです。 VAEによる分離は、潜在的な因子の事後変化と標準的な多変量ガウス事前分布との間のKL(Kullback-Leibler)発散の正則化項によって達成され、学習された潜在的な因子は可能な限り独立であることが強制される。

現実世界の観測が可算の独立因子で生成されている場合、潜在因子を復元することが期待される。 独立性をさらに高めるために、VAEの様々な拡張では、潜在因子間の相互情報を最小化することが検討されています。 例えば,Higginsら[6]やBurgessら[3]は,独立性を強化するために,KLダイバージェンス項の重みを増加させている. Kimら[13, 4]は、因子間の総相関を減らすことで独立性をさらに促す。 Disentangled representation learningのほとんどの既存の研究では、実世界の観測結果は可算の独立した因子によって生成されるという共通の仮定を置いている。 それにもかかわらず、我々は、多くの実世界のアプリケーションでは、興味のあるセマンティクスを持つ潜在的な要因は、因果関係があり、したがって、因果関係のある離接をサポートする新しいフレームワークが必要であると主張する。

image

図1の振り子のおもちゃの例を考えてみましょう。照明源の位置と振り子の角度は、影の位置と長さの原因となる。 因果分離表現学習では、上記の4つの概念に対応する表現の学習を目指します。 当然のことながら、これらの概念は独立したものではなく、既存の手法ではそれらの要因を抽出できない可能性がある。 さらに、因果分離表現では、因果システムを操作して反事実データを生成することができる。 例えば、影の潜在的なコードを操作することで、振り子と光があっても影のない新しい絵を作ることができます。 これは、ある変数が外力によって制御されているという条件でシステムが動作するという、因果関係における「Do-operation」[25]に相当する。 do-operation」をサポートする深い生成モデルは、意思決定の際に「what-if」の質問をすることができるので、非常に大きな価値があります。

本論文では、新しい構造的因果モデル層(マスク層)を導入することで、VAEに基づく因果関係分離表現学習フレームワークを提案する。 このフレームワークでは、因果関係DAGを介してセマンティクスと構造を持つ潜在的な要因を復元することができる。 入力信号は、エンコーダを通過して独立した外生因子を得た後、コーザルレイヤーで因果表現を生成し、デコーダで元の入力を再構成します。 このプロセスを「因果関係離散表現学習」と呼んでいます。 教師なしの離散表現学習は実現可能性に疑問があるが[19]、因果表現学習を実現するためには、弱い監督信号として追加の情報が必要である。 弱い監督」とは、我々の研究では、潜在的な要因の因果構造が、[15]のように事前に与えられるのではなく、自動的に学習されることを強調している。 我々のモデルを学習するために、VAE証拠下限損失と、学習された因果グラフの「DAG性」を保証するために学習された因果グラフに課される非循環性制約を含む新しい損失関数を提案する。 さらに、提案モデルの識別性を分析し、学習された分離モデルのパラメータが、ある程度まで真のモデルを回復することを示す。

本論文の貢献は以下の3点である。 (1) CausalVAEと名付けた、因果関係の分離と "dooperation "をサポートする新しいフレームワークを提案する。 (2) モデルの識別可能性に関する理論的な正当性を示す。 (3) 合成および実世界の顔画像を用いた包括的な実験を行い、学習された要因が因果関係のセマンティクスを持ち、学習データに現れない反実例の画像を生成するために介入できることを実証する。

e4exp commented 2 years ago

2. 関連作品

本節では、因果関係と非分離表現学習の組み合わせに関する最近の進歩を含む、最先端の非分離表現学習法をレビューする。 また、我々が提案するCausalVAEフレームワークの重要な要素である、純粋な観測値からの因果構造学習の予備知識を紹介する。

2.1. Disentangled representation learning

従来のdisentangled representation learningは、encoder decoderの枠組みで相互に独立した潜在的要因を学習する。 この方法では,潜在的なコードの事前分布として標準的な正規分布を用いる. そして、未知の真の事後p(z|x)を近似するために、変分事後q(z|x)が用いられる。 このフレームワークは、元の損失関数に新しい独立正則化項を加えることでさらに拡張され、様々なアルゴリズムにつながっています。

β-VAE[6]は、分離された因子の独立性と再構成性能のバランスをとるために、KL項の重みを調整する適応フレームワークを提案している。 一方, factor VAE [4] は,因子の独立性のみに着目した新しいフレームワークを提案している. 一方、Ladder VAE [17]は、ラダーニューラルネットワークの構造を利用して、階層的な接ぎ木のための構造化VAEを学習します。 しかし、前述の教師なし離散表現学習アルゴリズムは、要因間に複雑な因果関係があるような状況ではうまく機能しないことがあります。 また、帰納的なバイアスがないため、モデルの識別性が保証されないという問題がある[19]。

VAEの同定可能性問題は次のように定義される: データから学習されたパラメータθ〜がθでパラメータ化された真のものと等しい周辺分布、すなわちpθ〜(x)=pθ(x)を導くならば、結合分布も一致する、すなわちpθ〜(x, z)=pθ(x, z)である。 したがって、事前分布p(z)(標準多変量ガウス分布)の回転不変性は、p(z)の識別不可能性につながります。 Khemakhemら[11]は、同じ結合分布を持つ異なるモデルが無限に存在することを証明しており、これは教師なし学習では基礎となる生成モデルが特定できないことを意味する。 逆に,少数のラベルを利用することで,真のモデルを復元することができる[22, 19]. Kulkarniら[16]とLocatelloら[20]は、モデルの曖昧さを減らすために追加のラベルを使用しています。 Khemakhemら[11]は,非線形独立成分分析(nonlinear ICA)[2]の理論を利用して,追加入力によるVAEの識別可能性を示している.

2.2. 因果的発見と因果的離散表現学習

因果的表現とは、因果的グラフによって構造化されたものを指す。 純粋な観測データから因果関係グラフを発見することは、過去数十年の間に大きな注目を集めてきた[7, 35, 29]。 因果関係を発見する方法は、観察データ、または観察データと介入データの組み合わせを用いる。

まず、観察データに基づく手法を紹介する。 Pearlら[25]は、変数間の因果関係を記述するために、PGM(Probabilistic Graphical Models)ベースの言語を導入した。 清水ら[29]は,因果グラフを学習するためにLiNGAMと呼ばれる有効な手法を提案し,線形性と非ガウス性の仮定の下でモデルの識別可能性を証明している. Zhengら[36]は、因果構造学習のために完全微分可能なDAG制約を持つNOTEARsを提案し、非常に複雑な組み合わせ最適化問題を連続最適化問題に劇的に削減した。 Zhuら[38]は、強化学習(RL)に基づく柔軟で効率的な手法を提案し、DAG空間上で最高のスコアを持つ最良のグラフを探索する。 介入が可能な場合、つまり、因果システムを操作し、介入下でデータを収集できる場合、因果発見のための手法が提案される。 Tillmanら[33, 5]は、介入データから学習した因果構造の識別可能性を示している。 Petersら[10, 26, 27]は、介入下の複数の領域における構造の不変性を探り、因果関係のエッジを特定している。 最近では、因果関係と分離した表現を組み合わせることが注目されている。 Suterら[32]は、因果関係を用いて、非接觸の潜在的表現を説明した。 Kocaogluら[15]は、CausalGANと呼ばれる手法を提案した。 この手法は、画像上での "do-operation "をサポートするが、事前に与えられた因果グラフを必要とする。 Besserveら[1]は、独立した潜在的要因を仮定する代わりに、依存性のある潜在的要因をモデルに採用しています。 このモデルでは、「独立メカニズム」またはモジュール化の原理を用いて、相互に独立した因果メカニズム[27]の出力を表すいくつかの非構造化ノードを含む層を設計し、それらが最終的な予測値に寄与することで、分離を実現している。 我々のモデルでは、因果関係のある構造を持つ層(マスキング層)によって要因を分離しており、モデルの構造が彼らとは異なっています。 Scholkopf ¨ら[28]は、因果的に分離された表現の学習の重要性と必要性を主張していますが、まだ概念的なものにとどまっています。 我々の知る限りでは、因果関係のない表現の学習に成功したのは我々の研究が初めてです。

e4exp commented 2 years ago

3. Variational Autoencoderにおける因果関係の解消

本研究では、因果関係表現の定義から始め、概念のラベルなどの追加入力を活用して因果関係の解消を実現する新しいフレームワークを提案する。 まず、我々が提案するCausalVAEモデル構造の概要を図2に示す。 従来のVAEネットワークに、構造的因果モデル(Structural Causal Model: SCM)[29]を本質的に表現する因果層(Causal Layer)を導入しています。 Causal Layerは、独立した外因性因子を、因果関係のある対象概念に対応する因果関係のある内因性因子に変換する。 そして、マスク機構[23]を用いて、親変数の効果を子変数に伝播させ、SCMの代入操作を模倣します。 このようなCausal Layerは、システムへの介入や「Do-Operation」を支援する鍵となります。

3.1. 独立した外生因子を因果表現に変換する

我々のモデルは、VAEに基づいた離散化の枠組みの中にあります。 エンコーダとデコーダの構造に加えて、因果表現を学習するためにSCM(Structural Causal Model)層を導入しています。 因果表現を形式化するために、データに含まれるn個の注目すべき概念を考えます。 観測データ中の概念は、隣接行列Aを持つ有向非環状グラフ(DAG)によって因果的に構造化されています。 一般的な非線形SCMが望ましいのですが、本研究では、簡単のために、因果層は、式1で記述された線形SCMを正確に実装しています(図2 1に示す)。

image

ここで、Aはこの層で学習されるパラメータであり、z∈R nはDAGによって生成されるn個の概念の構造化された因果表現であり、したがって、Aは厳密な上三角行列に順列化することができる。

モデルの教師なし学習は、[19]で議論されているように、識別可能性の問題のために実行できないかもしれない。 この問題に対処するため、iVAE [11]と同様に、真の因果概念に関連する追加情報uを監視信号として採用する。

我々の研究では、概念のラベルを使用している。 追加情報uは2つの方法で利用される。 まず、条件付き事前分布p(z|u)を提案し、zの学習された事後分布を正則化する。 これにより、学習されたモデルが識別可能なファミリーに属することを保証する。 また、因果構造Aを学習するためにuを活用する。 因果表現を学習するだけでなく、学習データには存在しない反実データを生成するために、因果システムへの介入をサポートするモデルをさらに有効にする。

3.2. 構造的因果モデル層

因果表現zが得られると、それはマスク層[23]を通過して自身を再構築する。 このステップは、対応する親変数によって子がどのように生成されるかを描いたSCMに似ていることに注意してください。 介入を実現するために、なぜこのような層が必要なのかを示します。 因果グラフに関連する隣接行列は、A = [A1| ... ... |An]であり、Ai∈R nは、Ajiがzjからziへの因果の強さを符号化するような重みベクトルである。 親変数を子変数に対応させるマイルドな非線形かつ反転可能な関数[g1, g2, ... , gn]のセットを用意する。 そして、次のように書く。

image

ここで,◦は要素ごとの乗算,ηiはgi(-)のパラメータである(図2 3に示すように)。 なお、式1によれば、単にz_i = A^T_i z + i と書くことができます。 しかし、マイルドな非線形関数giを追加することで、より安定した性能が得られることがわかります。 このマスキングがどのように機能するかを示すために、変数ziを考え、Ai ◦ zは、ziの非親変数をすべてマスキングするように、その親の情報のみを含むベクトルに等しい。 再構成誤差を最小にすることで、隣接行列Aとマイルドな非線形関数giのパラメータηiが学習されます。

この層により、介入や「Do-operation」が可能となる。 因果関係における介入[25]とは、システムのある部分を外力で修正することであり、そのような操作の結果に興味がある。 zi に介入するためには、式2のRHSにある zi(図2の第1層にあるzのi番目のノードに対応)を固定値に設定し、その効果を式2のLHSにある自分自身(第2層にあるzのいくつかのノードに対応)だけでなく、そのすべての子に配信する。 このモデルでは、情報は前の層から次の層にしか流入しないため、因果関係のある効果の定義と一致しています。

3.3. CausalVAEの確率的生成モデル

提案する生成モデルの確率的な定式化を行う(図2 2)。 x∈R dを観測変数、u∈R nを付加情報とする。 uiはデータ中のi番目の興味ある概念のラベルである。 eps ∈R nを潜在的な外生独立変数とし、z∈R nを潜在的な内生変数とし、z = A^T z + eps = (I - AT ) ^-1 epsというセマンティクスを持つ。 簡略化のため、C = (I - AT ) -1 と表記する。 z と eps の両方を潜在的な変数として扱う。 θ = (f, h, C, T,λ)でパラメータ化された以下の条件付き生成モデルを考える。

image

f(z)は反転可能な関数であると仮定したデコーダを表し、h(x, u)はエンコーダを表すとする。 生成モデルと推論モデルを以下のように定義します。

image

は、以下のようなデコード・エンコード処理を仮定して得られます。

image

ここで、ξとζは、確率密度pξとqζを持つ独立したノイズのベクトルである。 ξとζが無限大の場合、エンコーダとデコーダは決定論的なものとみなすことができる。 潜在変数zに対する共同事前分布pθ(, z|u)を次のように定義する。

image

ここで、p_eps(eps) = N (0, I)であり、潜在的な内因性変数の事前分布pθ(z|u)は、追加の観測値uで条件付けされた因子化ガウス分布、すなわち

image

ここで、λ1とλ2は任意の関数である。 本論文では、λ1(u)=u、λ2(u)≡1とします。 この分布はzの平均と分散の2つの十分統計量を持ち、これを十分統計量T(z)=(μ(z),σ(z))=(T1,1(z1), ... ... , Tn,2(zn))で表す。

第5章では、これらの表記法を用いて、モデルのIDnetifiability分析を行います。

e4exp commented 2 years ago

4. 学習戦略

本節では、因果表現と因果グラフを同時に学習するためのCausalVAEモデルの学習方法について説明する。

4.1. CausalVAEの証拠下界

我々は、真の事後pθ(eps, z|x, u)を近似するための扱いやすい分布qφ(eps, z|x, u)を学習するために、変分ベイズを適用する。 経験的データ分布qX (x, u)を持つデータセットXが与えられた場合、パラメータθとφは、以下の証拠下限(ELBO)を最適化することで学習される。

image

ここでD(-k-)はKLダイバージェンスを表す。 式8は一般的には難解である。 しかし、zとの間に一対一の対応があることから、次のように変分法による事後処理を単純化することができます。

image

ここで,δ(-)はディラック・デルタ関数である。 3.3節で紹介したモデルの仮定、すなわち生成過程(式4)と事前(式6)によれば、ELBO損失は以下のように整然とした形になる。

命題1 式(8)で定義されるELBOは次のように書くことができる。

image

証明の詳細は付録Aに記載されています。 この形式では、CausalVAEモデルを訓練するための損失関数を簡単に実装することができます。

4.2. 潜在コードの因果構造の学習

エンコーダとデコーダに加えて、我々のCausalVAEモデルは、学習されるべきDAG構造を持つ因果層を含む。 zとAの両方が未知であることに注意してください。 学習タスクを容易にし、因果グラフAの識別可能性を保証するために、我々は追加のラベルuを活用して、以下の制約を構築します。

image

ここで、σはラベルが二値であることからロジスティック関数、κ1は小さな正の定数値です。 これは、Aがラベル間の因果関係もうまく記述すべきだという考えに従っています。 同様に、学習された潜在コードzにも同じ制約を以下のように適用します。

image

ここでκ2は小さな正の定数値である。 最後に、因果関係のある隣接行列AはDAGであるように制約されます。 伝統的なDAG制約を組み合わせて使う代わりに、連続的な微分可能な制約関数を採用しています[36, 37, 24, 34]。 この関数は、隣接行列AがDAG[34]である場合にのみ0になり、すなわち

image

ここで,cは任意の正数である. 我々のCausalVAEモデルの学習手順は、以下の制約付き最適化に還元されます。

image

ラグランジュ乗法により、新しい損失関数である

image

ここで、α、β、γは正則化ハイパーパラメータを示す。

e4exp commented 2 years ago

5. 識別性分析

本節では、我々の提案するモデルの識別性を示す。 ここでは、次のような∼識別可能[11]を採用する。

定義1

∼を次のように定義されるΘの二項関係とする。

image

ここで、C = (I - A^T )^ -1 です。 B1は反転可能な行列で,B2はuiに関連する対角要素を持つ反転可能な対角行列であるとします。 ここでは、モデルのパラメータが∼識別可能であるとする。 11]に従い、我々の因果的生成モデルの識別可能性を以下のように求める。

定理1

観測されたデータが式(3-4)に従って生成され、以下の仮定が成り立つとする。

  1. 集合{x∈X|φξ(x)=0}は測度0であり,φξは式(5)で定義される密度pξの特性関数である。
  2. デコーダ関数fは微分可能であり,fのヤコビアン行列はフルランク1である.
  3. 十分統計量Ti,s(zi)は,1≦i≦n,1≦s≦2のすべての場合に,ほぼ全域でTi,s(zi)!=0であり,Ti,s(zi)は変数ziのs番目の統計量である.
  4. 追加の観測値ui != 0であれば、

パラメータ(f,h,C,T,λ)は∼識別可能である。

真の生成モデルのパラメータθは学習過程では未知であるが、定理1で与えられる生成モデルの識別可能性は、仮想関数によって学習されたパラメータθeが識別可能なファミリーに属することを保証する。 これは、学習された生成モデルのパラメータが、ある程度までは真のパラメータを回復することを示している。 また、zの中のすべてのziは概念iの追加観測と一致しており、因果システムの因果関係を継承していると考えられる。 そのため、zが因果表現であることが保証されるのである。 追加情報の監視下でのモデルの識別可能性は、条件付き事前分布pθ(z|u)によって得られる。 条件付事前分布は、pθ(z|u)の十分な統計量がuの値に関係していることを保証している。

e4exp commented 2 years ago

6. 実験

このセクションでは、合成データセットと実際の人間の顔画像データセットの両方を用いた実験を行い、我々のCausalVAEモデルを、分離表現学習に関する既存の最先端の手法と比較した。 我々は、あるアルゴリズムが解釈可能な表現を学習できるかどうか、また、学習された潜在的なコードへの介入の結果が我々の因果システムの理解と一致するかどうかを検証することに重点を置く。

6.1. データセット、ベースライン、測定基準

6.1.1 データセット:

合成データセットとベンチマークの顔データセットCelebAで実験を行う。

合成データ

因果関係のある物体の画像を含む2つの合成データセットを作成する。 1つ目のデータはPendulumと名付けた. 各画像は3つのエンティティ(PENDULUM, LIGHT, SHADOW)と4つの概念((PENDULUM ANGLE, LIGHT ANGLE) → (SHADOW LOCATION, SHADOW LENGTH))を含んでいる。 2つ目は「Flow」という名前です。 それぞれの画像には、4つのコンセプト(BALL SIZE → WATER SIZE, (WATER SIZE, HOLE)→ WATER FLOW)が含まれています。 ページ数の都合上,本文ではPendulumの結果のみを示し,Flowの実験と2つのデータセットの詳細は付録C.1に記載した.

実世界のベンチマーク

現実世界のデータセットであるCelebA2[18]も使用する。 CelebA2は、コンピュータビジョンのコミュニティで広く使用されているデータセットである。 このデータセットでは、異なる概念のラベルを持つ200k枚の人間の顔画像があり、因果関係のある属性の2つのサブセットを選択する。 1つ目のセットはCelebA(SMILE)で、GENDER, SMILE, EYES OPEN, MOUTH OPENから構成される。 もう一つはCelebA(BEARD)で、これは年齢、性別、髪の毛、ひげで構成されている。 本文ではCelebA(SMILE)の実験結果のみを示しており、その他の概念の実験結果は付録Dに記載しています。

ベースライン

我々の手法をいくつかの最新技術と比較し、アブレーション研究の結果を示す。 ベースラインは教師あり、教師なしの方法に分類される。 CausalVAE-unsup、LadderVAE [17]およびβ-VAE [6]は、教師なしの手法である。 CausalVAE-unsup は我々のモデルを縮小したもので,構造は CausalVAE と同じだが,Mask Layer と監視条件付き事前分布 p(z|u) が削除されている. 監督下の手法としては、モデル構造に因果関係のある層を含まないdisentangled representation learning method ConditionVAE [30]や、真の因果関係グラフを事前に与える必要がある因果関係生成モデル CausalGAN [15]などがある。 CausalGANは表現学習に重点を置いていないため、我々のCausalVAEとCausalGANの比較は介入実験のみとした(結果は付録D.3に記載)。 これらの手法では、ラベルに対する事前条件付けが与えられており、潜在表現の次元はCausalVAEと同じである。

メトリクス

評価指標として,最大情報量係数(MIC)と全情報量係数(TIC)[14]を用いる. いずれも,学習した表現と概念のグランドトゥルースラベルとの間の情報の関連性の度合いを示すものである.

6.2. 介入実験

介入実験の目的は、潜在表現のある次元が解釈可能なセマンティクスを持つかどうかをテストすることである。 前のセクションで紹介した「do-operation」によって潜在コードの値を操作し、生成された画像がどのように見えるかを観察する。 介入は以下のステップで行われる。

ハイパーパラメータ (α, β, γ) = (1, 1, 1) は,特に指定のない限り,すべての実験で使用した. まず、4つの潜在的な概念を持つPendulumデータセットに対して介入実験を行い、その結果を図3に示す。

image

ある概念に介入する際には,対応する潜在コードの値を0にする. 例えば,図3(a)の1行目に示すように,振り子の角度を介入させると,異なる画像の振り子の角度がほぼ同じになります. 一方、影の位置と影の長さは、物理法則に沿った正しい方法で変化していることも確認できます。 これはモジュール性の概念とも関連しています。 つまり、生成システムのある部分に介入しても、通常はシステムの他の部分には影響しないということです。 同様の現象は他の介入実験でも観察され、我々のモデルが根本的な因果システムを正しく実装していることを示しています。

因果構造を考慮しない教師ありの手法であるConditionVAEの結果を図3(b)に示す。 効果の潜在的なコードを操作しても、画像全体に影響を与えない場合があるという問題がある。 これは、因果関係の切り離しを明示的に考慮していないためと考えられる。 また、別の合成データセット「Flow」を設計し、同様の比較実験を行ったところ、我々の主張を支持する結果が得られました。 ページ数に制限があるため,結果は付録Dに示した.

image

図4は、実世界のバンチマーク・データセットCelebAにおけるCausalVAEの良好な結果を示しており、下位の図は、介入する概念GENDER、SMILE、EYES OPEN、MOUTH OPENの実験をそれぞれ示している。 原因概念であるSMILEを介在させると、MOUTH OPENの状態も変化することがわかります。 一方、効果概念である「口元オープン」を介在させても、原因概念である「SMILE」は変化しません。 表1は,比較したすべての手法について,学習した表現とグランドトゥルースの概念ラベルとの間の相互情報量(MIC/TIC)を記録したものである. 我々のモデルは、概念ラベルと最もよく一致しており、提案手法の有効性が証明された。 一方、比較した手法で学習した因子は、グランドトゥルースラベルとの相関が低く、これらの因子は少なくとも対象となる因果関係のある概念に対応していないことを示している。 さらに、図5には学習した隣接行列Aを示している。正確な因果関係グラフを学習するために、式11に対して拡張ラグランジアン法[34]を最適化することで、 前学習プロセスを設計する。学習エポックの増加に伴い、我々のモデルによって学習されたグラフがすぐに真のグラフに収束することがわかる。 これは、我々の手法が要因間の因果関係を正しく学習できることを示している。

image

image