Unsupervised Program Synthesis for Images By Sampling Without Replacement

https://arxiv.org/abs/2001.10119
2020 UAI 2021

プログラム合成は、画像解析タスクに対する成功したアプローチとして浮上している。ほとんどの先行研究では、合成プログラムを用いてSeq2Seqモデルを教師付きで事前学習した後、強化学習（RL）で実際の参照画像を用いて微調整するという2段階のスキームを採用している。完全に教師なしのアプローチでは，精査された事前学習データセットを必要とせず，ターゲット画像上で直接モデルを学習することができる．しかし、これらの手法では、意味のあるプログラムが検索空間に存在しないという問題がある。

本論文では，構成的立体形状（CSG）の画像を文脈自由文法（CFG）として解析することができる初めての教師なしアルゴリズムを提案する．本アルゴリズムでは，

(i)プログラムの妥当性を保証する文法エンコードされたツリー型LSTM， (ii)エントロピー正則化， (iii)CFG構文ツリーからの無置換サンプリング(Sampling Without Replacement)，

という3つの重要な要素を組み合わせることで，スパースな報酬問題に取り組んでいる．経験的に、我々のアルゴリズムは、大きな探索空間（最大3.8×1028）で意味のあるプログラムを回復する。さらに，本手法は完全に教師なしの手法であるにもかかわらず，合成2D CSGデータセットにおいて，教師ありの手法よりも優れた一般化を示した． 2次元CADデータセットでは、我々のアプローチは、教師付きの事前学習モデルを大幅に上回り、洗練されたモデルにも負けない。

1 INTRODUCTION

画像生成は、機械学習やコンピュータビジョンの文献で広く研究されている。膨大な数の論文が、低次元潜在表現による画像生成を探求している[Goodfellowら、2014、Arjovskyら、2017、Liら、2017、Kingma and Welling、2013、van den Oordら、2017、Oordら、2016]。しかし、生成モデルの各コンポーネントを個別に制御できるような分離した表現を学習することは困難である[Higgins et al., 2017, Kim and Mnih, 2018, Locatello et al., 2018, Chen et al., 2016]。本論文では、エンジニアリングやデザインのアプリケーションで一般的なCSG（Constructive Solid geometry）[Hubbard, 1990]やCAD（Computer Aided Design）画像からのCFGプログラム生成の問題に取り組みます。

幾何学的な画像をCFGプログラムに解析することで，必要なコンポーネントを選択的に操作し，それ以外のコンポーネントを保存することができるだけでなく，ニューラルネットワークが生成する不透明な低次元表現に代わる人間が読める表現を提供することができる．プログラムを抽出するモデルは、エンコーダー、画像を再構成するレンダラーをデコーダーと見なすことができます。

ここでは、非微分可能なレンダラーに注目します（BlenderやAutodeskなど、ほとんどのデザインソフトウェアは非微分可能です）。これらは微分可能なものよりも一般的ですが[Li et al., 2018, Liu et al., 2019, Kania et al., 2020]、その離散的な性質はネットワークに統合できず、レンダリングされた画像に対するグラデーションにはアクセスできないため、ニューラルネットワークを扱うにはより困難です。画像（CSG画像など）を非差分レンダラ用のプログラム（CFGプログラムなど）に解析するための一般的なスキームでは、まず教師付きの事前トレーニングのためにグランドトゥルースプログラムを持つ合成画像を使用し、続いてターゲット画像データセットでREINFORCEの微調整[Sharma et al., 2018, Ellis et al., 2019]を行うという2つのステップがあります。文法からのサンプリングプログラムは，対象画像が文法で指定された幾何学的プリミティブの組み合わせに限定されていれば，教師用に適したデータを提供できる。

スーパーバイズド手法には2つの限界がある。第一に，最尤推定（MLE）を用いて，他の多くの正しいプログラムにペナルティを与えながら，単一の参照プログラムの尤度を最大化することである[Bunel et al.，2018]。この観察はプログラムエイリアシングとして知られており、スーパーバイズラーニングのパフォーマンスに悪影響を与えます。第二に、文法によって生成されていないテスト画像にはうまく一般化できない。

この2つの限界を改善するために，REINFORCEの微調整が提案されている[Bunel et al., 2018, Sharma et al.] しかし、生成されたプログラムのうち、文法構造が崩れるような悪い勾配更新にモデルが敏感に反応してしまうため、教師付き事前学習とREINFORCE fin-tuningの間の移行は微妙です。さらに、キュレートされた事前トレーニングのデータセットの品質は、下流のモデルの一般化能力を制限する可能性があります。

しかし、本稿では、画像のグランドトゥルースプログラムが学習に利用できない場合に、より興味深く、より困難な教師なしタスクに焦点を当てます。教師付きの事前学習に比べて、教師なしの画像解析はあまり検討されていません。教師なしのアプローチの利点は、

対象となるドメインで直接トレーニングを行うことです。
- 例えば，CFG で指定された幾何学的形状の組み合わせが，文法のプリミティブを超える CAD データセットを模したものになるなど，ターゲットデータセットを模倣した精選された合成データセットでトレーニングを行う代わりに，ターゲット画像で直接トレーニングを行うことができます．合成データセットは，ターゲット画像データセットを正確に反映していない可能性があり，その後のテスト時に十分な一般化ができない可能性があります．
すべての正しいプログラムを平等に扱う。
- 複数のプログラムが同じ画像の再構成に対応している場合、教師ありの手法では合成されたグランドトゥルースデータセットに含まれるプログラムに対してのみ最適化されるのに対し、RLでは同等のプログラムが同等の報酬を得ることができます。

このような利点があるにもかかわらず、教師付きの事前学習を行わないアプローチを設計することは困難です。この問題は離散的な性質を持っているため，REINFORCEなどの強化学習のツールに頼っています．しかし，プログラム空間はプログラムの長さに応じて指数関数的に成長し，有効なプログラムは探索空間では疎すぎて，学習に十分な頻度でサンプリングすることができません．素朴なREINFORCEを用いた学習では，実験では性能の向上は見られませんでした。また，Hindsight Experience Replay [Andrychowicz et al.]のような，報酬の疎な問題を緩和するRL技術は，モデルにMarkov仮定があるため，ここでは適用できません．

本研究では，REINFORCEアルゴリズムのサンプル効率を向上させ，改良したアプローチが2ステップモデルに対して競争力のある結果を達成することを示す．さらに，2次元CSGデータセットにおいて，本手法が教師ありの手法よりも一般化することを示した． 2D CADデータセットはCFGで生成されたものではないため，合成データセットでは十分に捉えることができないが，我々の手法は事前に学習させたモデルの結果を大きく上回り，洗練されたモデルと競合する性能を示した．ここでは，プログラムの監視なしに画像の解析を学習し，レンダリング画像に直接勾配を与えない非差分型レンダラーを使用することに成功した主な要素をまとめます。これにより、出力プログラムの妥当性が保証される。

エントロピー正則化による探索空間の探索を促すために、構文木からトップダウンでサンプリングするのに適したエントロピー推定量を提案する。
本研究では，モンテカルロ法に頼らず，構文木からの非復元抽出(sampling without replacement )を採用することで，より良いエントロピー推定値を得るとともに，REINFORCE目標を用いて収束を早める．

2 RELATED WORK

プログラム合成は、機械学習の研究者からの関心を集めている。教師付き学習は、入力/出力プログラム合成問題のための自然な選択である[Parisotto et al., 2016, Chen et al., 2018a, Devlin et al., 2017, Yin and Neubig, 2017, Balog et al., 2017, Zohar and Wolf, 2018]とされている。 Shinら[2018]は、入出力のペアを使って実行トレースを学習します。 Bunelら[2018]はRLを用いてプログラムのエイリアシングに対応しているが、そのメリットを享受するにはやはり教師付きの事前学習が必要であるとしている。妥当な出力を保証するアプローチには、シンタックスチェッカー[Bunel et al., 2018]または抽象構文木（AST）の構築[Parisotto et al., 2016, Yin and Neubig, 2017, Kusner et al., 2017, Chen et al., 2018b]が含まれる。グラフはプログラムの情報の流れをモデル化することもできる［Brockschmidt et al.

Vision-as-inverse-graphicsは、シーンを、元のシーンを模した、色や位置などのパラメータを持つ、車や木などの形状や3Dプリミティブの集まりに解析することに焦点を当てている［Tulsianiら、2017、Romaszkoら、2017、Wuら、2017］。 Yaoら[2018]は、色の変更など、レンダリングされたオブジェクトをさらに操作します。ストロークベースのレンダリングは、私たちが書いたり描いたりするのと同じような画像を作成します。画家の筆の動きを真似て絵画を再現する［Huang et al., 2019］、オブジェクトのスケッチを描く［Ha and Eck, 2017］などの例がある。 SPIRAL[Ganin et al., 2018]は、MNISTの数字やOmniglotの文字を再現できる、敵対的に訓練されたディープRLエージェントです。我々の問題とは逆に、visionas-inverse-graphicsとstroke-based renderingの両方に文法構造は不要である。

画像をプログラムに変換する研究は、私たちの研究により密接に関連しています[Sharma et al., 2018, Ellis et al., 2019, 2018, Liu et al., 2018, Shin et al., 2019, Beltramelli, 2018, Kania et al., 2020]。 Tianら[2019]、Kaniaら[2020]は微分可能なレンダラーを学習パイプラインに組み込んでいますが、我々はレンダラーを学習プロセスから独立した外部プロセスとして扱うため、レンダラーを介してグラデーションを伝播させることができません。さらに、Kaniaら[2020]は解析木をボトムアップで構築し、葉の数を事前に決定していますが、我々のようなトップダウンではなく、より一般的なものとなっています。 Ellisら[2018]は、ニューラルネットワークを用いて手書きのスケッチから形状を抽出し、文法規則を制約として定式化し、制約充足問題を最適化することで最終的なプログラムを得ています。同様に、Duら[2018]は、3DモデルをCSGツリーに解析する問題を制約充足問題として鋳造し、既存のSATソルバーで解く。このプロセスは、ニューラルネットワークベースのソリューションと比較して、計算量が多くなる可能性があります。より関連して、Sharmaら[2018]は、CADデータセットに一般化するためにRLの微調整を行う前に、教師付きプレトレーニングによってプログラム合成を行う。 Ellisら[2019]は、合成データからの監視でポリシーを事前学習し、REINFORCEで価値関数を学習します。どちらもテスト時間中に有望でない候補をプルーニングするために使用されます。彼らの報酬関数はバイナリであり、我々のモデルとは対照的に、文法によって生成されていない画像は近似することはできない。

3 提案されたアルゴリズム

CSGイメージとCFGプログラム。

我々はCSG（Constructive Solid geometry）[Hubbard, 1990]を用いて画像を表現します。我々のモデルの入力は，それぞれが指定されたサイズと位置を持つ幾何学的形状（例えば，正方形，円，...）から構成される画像です（図8参照）．このモデルの出力は，文脈自由文法（CFG）プログラムです． CFG仕様［Sharma et al., 2018］では，S，T，Pは，開始，操作，図形を表す非終端です。残りは端子で，例えば＋（結合），＊（交差），-（減算），c(48, 16, 8)は画像の位置(48, 16)に半径8の円があることを表している。図3は、CSG画像とそれに対応するプログラムの例です。

以下の各行は、プロダクション・ルール、または単純化のための単なるルールです。

3.1 LEARNING WITH REINFORCE

REINFORCE目的のみで学習したモデル[Sharma et al.2018]は、最低報酬(セクション4.1.1)を超えて改善することができない。この設定でRLアプローチの学習を可能にするために、3つのコンポーネントを提案する。

(i）探索を促すためのツリーモデルのエントロピー推定器、（ii）最適化を促進し、さらに探索を促すためのプログラム空間での置換なしのサンプリング、（iii）中間的なフィードバックを提供するための画像スタックで有効な出力シーケンスを確保するための文法エンコードされたツリーLSTM。

このセクションでは、まず目的関数と報酬関数について説明します。

目的関数

このモデルは、入力画像用のCNNエンコーダ、アクション用の埋め込み層、プログラム・シーケンスを生成するRNNで構成されています（図1参照）。モデルの学習には，エントロピー正則化REINFORCE [Williams, 1992]を用いています．ここで，H(s)とf(s)は，それぞれシーケンスsのエントロピー(これは後で定義する)と報酬関数を表し，θはモデルのパラメータを表すとする．目的語は以下のように最適化されます。

報酬関数

出力されたプログラムsは、差分のないレンダラーによって画像yに変換される。その画像はターゲット画像xと比較され、報酬f(s)=R(x, y)を受け取ります。報酬関数の一部として、Chamfer Distance（CD）を使用しています。 CDは最も近い特徴への平均的なマッチング距離を計算し、Optimal Transport（OT）とは異なり、画像の類似性を貪欲に推定します。しかし、OTはRLの目的では計算上実現不可能です。

形式的には、各画像のピクセルをそれぞれx∈x、y∈yとする。このとき、距離Ch(x, y)は

CDは、最終的な値が0と1の間になるように、画像の対角線の長さ（ρ）でスケーリングされます[Sharma et al.2018]。この問題では、報酬1 - Ch（x, y）は、ほとんどが0.9と1の間になります。より滑らかなグラデーションを実現するために、1 - Ch（x, y）をγ = 20の累乗に指数化します[Laud, 2004]。さらに，大きさや位置が似ている形状を区別するために，ピクセルの交点に基づく成分を追加します．最終的な報酬関数は次のように定義される．

報酬関数の第1部と第2部は、それぞれ予測の物理的距離と類似性に関するフィードバックを提供します。報酬をδ=0.3以下にすることで、生成された画像の品質が低い場合に、報酬を単純化しています。報酬の値が低いと、その性能をほとんど知ることができず、ターゲット画像に大きく依存することになります。同様の報酬クリッピングのアイデアは，DQN [Mnih et al.，2013]でも使用されている．

3.2 エントロピー正則化による探索

RLにおけるエントロピー正則化は、探索を促進するための標準的な手法である。ここでは、構文木からトップダウンでサンプリングするためのエントロピー推定を提案する。 Sを可能なプログラムの確率変数とします。そのエントロピーはH(S) = E[- log P(S)] 1 で定義される。 Sの可能な結果は指数関数的に大きく、そのすべてを列挙することはできないため、H(S)の推定は困難である。分布Pが与えられた場合，ナイーブなエントロピー推定量は

ここで{s^i}_{i=1}^KはPからのiidなサンプル。実際には，Kが指数関数的に大きくない場合，この推定量は大きな分散を持つ．そこで，本稿では構文木を用いた改良型の推定法を提案する．まず，プログラムSをS = X1 ... ... Xnに分解する．ここで，各Xjは，プログラムのj番目の位置にあるトークンの確率変数です．自己回帰モデル（RNNなど）では、条件付確率にアクセスできるため、分解エントロピー推定量HˆDを以下のように構成することができる。

ここで，s^i = x^i_1 , .. . , x^i_n , H(X_j |X_1 = x^i1 , - - , X{j-1} = x^i_{j-1} ) は条件付きエントロピーである。以下のレンマにより、HˆDはHˆよりも改良された推定量であることがわかる。

Lemma 3.1.

提案する分解エントロピー推定量HˆDは低分散で不偏、すなわちE[HˆD] = H(S)かつVar(HˆD) ≤ Var(Hˆ)である。

証明は付録CとDに記載されている。

3.3 置換なしサンプリングによる効率的な最適化

エントロピー正則化を目的としたREINFORCE法を確立した後，置換ありサンプリング(SWR)ではなく，置換なしサンプリング(SWOR)を選択する理由を説明する。ここでは，合成例を用いて説明します（図2）．

m = 100個の変数のうち、3個の変数が他の変数よりも有意に高い確率を持つという分布を初期化します（図2 (2) ）。損失関数はエントロピーです。その推定値は，SWRでは1/ m sum^m_{i=1} log pi，SWORではsum^m{i=1} pi /qi log piである。どちらの場合も，piはi番目の変数の確率，qiはSWOR後に再正規化された確率，pi qiは重要度の重み付けである。 20個の変数を復元抽出なしでサンプリングすることによるエントロピーの増加は、40個の変数を復元抽出でサンプリングする場合よりも急激である。 700回の繰り返しの最後には、SWORの下での分布は、他のものよりも目に見えて均一になっている。 SWORはSWRよりも優れた探索を実現するだろう。 SWORを目的に適用するためには，REINFORCE目的とエントロピー推定量に重要度の重み付けが必要である． s^i_j は配列 s^i の最初の j 個の要素を表すとすると

木構造にSWORを実装して、適切なプログラムSのセットを得ることは困難である。すべてのパスをインスタンス化してSWORをボトムアップで実行するのは現実的ではない。代わりに、SWORボトムアップと同等のトップダウンSWORとガンベルトリックを組み合わせて、ストキャスティックビームサーチの形態を採用する［Kool et al. サンプリング処理はAlgorithm 2で説明しています。より詳細な説明、再正規化確率qθ(s i )の実装、および目的関数の分散削減の追加トリックについては、付録Bを参照してください。

3.4 GRAMMAR ENCODED TREE LSTM

文法符号化木LSTMを導入し，生産規則をモデルに符号化することで，正しいプログラムの生成を保証し，学習時の探索空間を大幅に削減する[Kusner et al., 2017, Alvarez-Melis and Jaakkola, 2016, Parisotto et al., 2016, Yin and Neubig, 2017]。文法プログラム生成におけるプロダクションルールには、形状選択（P）、演算選択（T）、文法選択（E）の3種類があります。この問題設定における文法選択には、E→EET、E→Pがあり、それらがプログラムを展開するかどうかを決める。ここでは、形状、操作、非終端結果（例：ルール（2）のEET）の集合をそれぞれP、T、Gとする。素朴なパラメータ化としては，LSTM出力の候補集合を{S, $}∪T∪P（$は終了トークン）とし，これを標準的な言語モデルとして扱い，プログラムを生成する［Sharma et al.，2018］。モデルは文法構造を明示的に符号化せず、学習過程で暗黙的に捉えることを期待しています。欠点は、サンプリング時に有効なプログラムの出現がまばらになり、学習プロセスを大幅に長引かせてしまうことです。

提案モデルは、無効な出力を除外するための文法スタックを維持することで、マスキング機構を備えたRNNモデルと説明できます。我々は、非終端を含むことで、全出力空間のサイズを、以前のアプローチ（例えば[Sharma et al., 2018]）の2+|P|+|T |から、2 + |P| + |T | + |G|に増加させます。生成中、現在の生成ルールをトレースするためにスタックを維持します。現在の非終端とそれに対応する展開規則に基づいて、マスキングメカニズムを使用して、無効な出力候補を排除する。

非終端記号Tを例にとると、無効な出力をマスクして、候補のサイズを2 + |P| + |T | + |G|から |T |のみに減らします。この過程で、モデルは、文法トークン、形状トークン、操作トークンなどの一連のトークンを生成します。最終的な出力プログラムとして端末のみを残し、残りは破棄する。得られたプログラムは、文法的に正しいことが保証される。生成過程において、文法的なトークンは文法スタックに押し込まれ、中間的な画像や操作は画像スタックに押し込まれる。画像スタックの画像は、LSTMの入力の一部となり、探索空間での推論を助けます。ツリーLSTMの理解を深めるためのステップバイステップのガイドを付録Aに、プロセスを視覚的に表現したものを図1に示します。

4 実験

実験に使用したデータセットは，セクション3で指定したCFGによって生成された合成データセットと，2D CAD家具データセットの2つである．実験では，セクション3で指定したCFGによって生成された合成データセットと，2次元CAD家具データセットの2つのデータセットを使用した．その結果，監修を受けたモデルの方が，より多くのグランドトゥルースプログラムを利用しているにもかかわらず，両データセットにおいてより低い汎化能力を示すことが確認された．また、合成データセットを用いて、我々のアルゴリズムの定性的・定量的なアブレーションの研究を行った。また、我々のアルゴリズムは、完全に一致しないにもかかわらず、CAD画像をプログラムで近似することができることを示した。 CAD家具のデータセットでは，教師付きの事前学習モデルよりも優れた性能を発揮し，洗練されたモデルに匹敵する結果を得ることができた．さらに、Lemma 3.1で証明されているように、ステップワイズエントロピー推定量（式9）は、ナイーブ推定量（式8）よりも実際に小さな分散を持つことを経験的に検証した。

4.1 合成データセットの研究

我々のアルゴリズムをテストするために、3つの合成データセットを使用する。動作空間には27個の図形（図8）、3個の演算、2個の文法非終端を含み、64×64の画像を作成する。 3つの形状（またはプログラム長5）までの画像の探索空間は約1.8×105で、5つの形状（またはプログラム長9）では1.1×109までになる。このように、プログラムの長さによってデータセットを分けることで、複雑さが増す画像を区別しています。合成データセットは、形状とテキスト中の操作の組み合わせにおいて、重複した画像や空の画像をフィルタリングして生成したものである。画像は、2つの間で120ピクセルしか違わない場合は重複していると考えられ、120ピクセル以上の画像がない場合は空であると考えられる。データセットのサイズ情報を表1に示す。

4.1.1 デザインコンポーネントのアブレーション研究

これら3つのデータセットでは，学習時に各ターゲット画像に対して19個のプログラムを入れ替えなしでサンプリングした．負のエントロピー係数は0.05、学習率は0.01である。 SGDを0.9のモメンタムで使用します。 3 つの設計要素のうちいずれか 1 つを削除すると、アルゴリズムの性能が低下する。置換を伴うサンプリングの設定では、モデルはすぐに局所最適に陥ってしまいます（図4（黄色））。

目的関数にエントロピー項がない場合、報酬関数は長さ5のデータセットでのみ改善されますが、長いプログラムでは改善されません。どちらの手法も、モデルが局所的な最小値から逃れるための探索を容易にしています。木構造がない場合、プログラムが有効なプログラムを生成することができないため、報酬は最低報酬（図4（緑））付近に留まります。文法符号化木LSTMは、サンプリングされたプログラムが有効であり、モデルに意味のあるフィードバックを与えることができるように、探索空間を効果的に制約します。対象画像が復元できる限り、生成されるプログラムのバリエーションを許容し、プログラムの品質を対象画像に対する復元画像の類似度で評価しています。収束したアルゴリズムの性能（表2）を，3つのテストセットでChamferとIoUの報酬指標（式7第1項と第2項）を用いて測定した．完全に一致した場合には，両方の評価基準で1が得られます．図3は，アルゴリズムに関する定性的な例を示したものである．

4.1.2 教師あり学習との比較

教師なし学習法と同じニューラルネットワークモデルを用いて，合成データセットを用いた教師あり学習法の学習結果とテスト結果を比較します．各ステップの入力は，埋め込まれたグランドトゥルースプログラムと，エンコードされた最終画像および中間画像の連結である．プログラムの品質を測定するために，表2と同じChamfer報酬メトリックを使用した。教師ありの手法のテスト結果は，複雑さ（プログラムの長さ）が増すにつれて悪化したが，訓練結果は3つのデータセットすべてにおいてほぼ完璧であった．教師なし手法は、教師あり手法と比較して、常に高いスコアを獲得し、新しいデータへの汎化も良好である（表3）。この現象は、プログラムのエイリアシングによって説明できる[Bunel et al.] RL法はすべての正しいプログラムを平等に扱い、画像空間の報酬関数に対して直接最適化するのに対し、教師付き法は合成データセットの内容に限定され、プログラム空間の損失関数に対してのみ最適化する。

4.1.3 限られたデータでの教師付き事前学習とREINFORCEによる微調整

この実験では、合成学習データセットの3分の1で、収束するまで教師付きモデルを事前学習しました。そのモデルを用いて，全学習データセットに対してバニラREINFORCEによる微調整を行います。その結果，3つのデータセットすべてにおいて，報酬が急激に低下しました（図5）。これは，元々の教師付き事前学習モデルの出力が文法構造に従っているにもかかわらず，微調整過程で更新された後も一貫して構造を保持することができず，それが原因で崩壊してしまったという説明です。

4.2 2D CAD FURNITURE DATASET STUDY

本実験で使用するデータセットは、様々な家具アイテムの64×64のバイナリ画像を含む2D CADデータセット[Sharma et al, 2018]です。この問題に、396個の基本的な形状に加えて、第3節で説明した操作や文法的な端末を加えた行動空間を用いて、我々のアルゴリズムを適用します。 LSTMの反復回数は、最大6個の形状に対応する24ステップに制限した。 6つの形状までの画像の場合、探索空間は9.4×1017となる。文法的に符号化された木構造を取り除くと、探索空間は3.8×1028となる。合成実験でこのような大きな探索空間にスケールアップするために、無交換でサンプリングするプログラムの数を550に増やした。通常、数が多いほど収束が早くなり、収束時の性能が向上しますが、この問題では500程度で性能の向上が薄れてしまいます。学習率とエントロピーの値は、それぞれ0.01と0.007を使用しています。これらの画像はCFGで生成されたものではなく、厳密なマッチングソリューションが存在しないため、Chamfer報酬（式7の最初の部分）のみでモデルをトレーニングします。学習中，報酬は 0.72 に収束しました．トレーニングセットとテストセットの定性的な結果が報告されています（図6）。プログラムによる再構成では，ターゲット画像の全体的な輪郭を捉えることができている．しかし，シェイプアクションが回転していない正方形，真円，正三角形のみで構成されているため，切り出しや角度がオリジナルからずれている．

4.2.1 教師付き事前学習との比較

本節では，比較のために，画像の類似性を Chamfer Distance (CD) (式 6) で直接測定する． 300k，150k，30kのグランドトゥルースプログラム（重複を含む）に対して，それぞれ学習率0.001でモデルを事前学習させた．その結果，合成検証セットにおいて最も低いCDに到達したモデル（それぞれ1.41，2.00，2.79）を選択した．さらに，学習率0.006のCADデータセットを用いて，前学習したモデルを微調整した．事前学習と微調整の間の移行は微妙である。学習率を0.016ではなく0.01に設定した場合や、事前学習モデルを微調整した場合、出力プログラムの文法構造（図5）が崩れてしまう。我々のモデルは，学習率を0.01，エントロピー係数（ec）を0.009に設定して，CADデータセット上で監視なしに直接学習された．エントロピー係数は、探索と利用の間でトレードオフの関係にあります。 ecを高くすると収束が遅くなりますが、モデルが局所的な最適状態に陥る可能性が低くなります。この問題でecを0.005から0.012の間に設定しても、結果に大きな影響はありませんでした。 3つの事前学習モデル、Vanilla RL微調整モデル、SWOR RL微調整モデル、そしてk = 1, 3, 5のビーム探索後の我々のモデルの結果を表4に報告する。

事前学習モデルの性能が低いのは，学習データセットとCADデータセットが不一致であるため，新規データセットに直接汎化できないことを示している．教師なし手法は，対象領域で直接訓練されているため，教師ありモデルの性能を大幅に上回る．また，RLの微調整に移行する際のハイパーパラメータの調整ステップを削除し，洗練されたモデルに匹敵する結果を得ることができました． k = 1, 3の場合、教師なしの手法は、微調整されたモデルよりも良い結果となります。収束時には、300kの合成データで事前学習した微調整モデルと教師なしモデルの結果は、k = 5で非常に近くなる。 2種類の精緻化されたモデルは、同じ量の事前学習用合成データがあれば同じような結果になりますが、少ないデータでは性能が低下し、事前学習用データセットの質が下流のモデルの制限要因であることが確認されました。

4.3 エントロピー推定の分散研究

本研究（図7）では、2つの分散推定量の経験的な関係を調査し、HˆDがHˆよりも低分散を達成するという定理3.1を検証する（3.2節）。 length 5, 7, 9データセットの学習時間中のエポック40で保存された単一モデルを用い、HˆD（式9）とHˆ（式8）を用いてエントロピーを推定する。サンプリング方式は、置換ありと置換なしの2種類を検討する。両エントロピー推定法と2つのサンプリング方式を組み合わせ、4つのインスタンスを作成して比較した。プロットのx軸は、1回のエントロピーの推定を得るためのサンプル数を示している。さらに、この推定を100回繰り返して、平均と分散を求めます。 SWR法の平均値はSWOR法の平均値のベースラインとして機能し、一方で2つのエントロピー推定法の標準偏差（斜線部分）を比較する。 3つのデータセット全てにおいて、HˆD（緑）はサンプル数が2から80までの範囲で有意に小さい分散を示している。しかし、長いプログラムや複雑な画像では、分散を小さくするために、より多くのサンプル数を必要とすることがわかります。これは、探索空間がプログラムの長さに対して指数関数的に増加するためである。 SWOR推定の初期の偏りは、サンプル数が10以上になると解消され、番組の長さが長いデータセットではより大きくなります。

5 DISCUSION

現在の非可逆的なレンダラーのためのプログラム合成アプローチでは、ユーザーが最初にプレトレーニング用の合成データセットを作成し、次にターゲット画像を用いてRLによる微調整を行うという2段階のスキームを採用している。純粋にRLを用いたアプローチでは、プレトレーニング用のデータセットを作成する必要がなく、ターゲット画像から直接学習することができます。さらに、教師付きの事前学習に依存するアプローチとは異なり、RLアプローチでは、複数の等しい再構成が存在する場合に、モデルを合成データセット内のプログラムのみに制限しません。このような事前学習データセットの制限は、下流のモデルの一般化能力にさらに影響を与える可能性がある。

本論文では，非差分レンダラで作成されたCSG画像を，事前学習なしでCFGプログラムに解析することができる，初めての教師なしアルゴリズムを紹介した．これは，REINFORCEベースのアルゴリズムのサンプル効率を向上させるために，3つの重要な要素を組み合わせることで実現したものである。

(i) 探索空間を制限するための文法符号化木LSTM, (ii) 探索と利用をトレードオフするためのエントロピー正則化, (iii) より良い推定のためのCFG構文木からの置換なしサンプリング。

今回の研究では，各設計要素の質的・量的な貢献が強調されている。我々のRLアプローチは，事前学習用データセットを利用していないにもかかわらず，合成2D CSGデータセットにおいて，教師ありの手法よりも高い性能を達成した．さらに、2D CADデータセットでは、教師付きの事前学習モデルよりも優れており、RLの微調整モデルとも競合している。

e4exp / paper_manager_abstract