回帰問題において、target となる連続値を直接学習・予測するのではなく、その分布を学習することで性能が上がるという報告が強化学習分野などからされており、その改善理由について調査を行った。結果として回帰タスク用の損失関数である Histgram Loss を新たに提案、これにより予測精度を大きく改善することを実験にて示し、かつ Histgram Loss による学習は最適化しやすく、かつ汎化しやすいことを発見した。
2. 先行研究と比べてどこがすごい?
回帰タスクを分布で学習するための Histgram Loss を提案、これにより精度を改善。
Histgram Loss の最適化の性質を理論的・実験的に検証した
3. 技術や手法のキモはどこ?
Histgram Loss
target を平均としたヒストグラム (K個の bins に density を割り当てる) を適当な分布で作成し、モデルは bins 分の出力からそれぞれの density を予測し、両分布の KL Divergence を loss とする。
target distribution を p, モデル出力を q_x, histgram の bins の数を k とすると、KLD は
h(p) は最適化に関係ないため、 h(p, q_x) に着目し、w_i を i番目の bin の幅、f_i を i番目の bin のモデル出力とすると
これは、p_i を i番目の bins の値 p_i でおけるので、Histgram Loss HL は次のようにかける。
target distribution を (Truncated) Gaussian と仮定する場合 (HL-Gaussian)
p_i は次のように予め定義できる
このように target distribution を定義した上で予測分布を作成し、Histgram Loss で学習を行う
他にも HL-OneBin (Dirac Delta 分布で1つの bin のみ), HL-Uniform などを定義している
4. どうやって有効だと検証した?
CT Position, Song Year, Bike Sharing の3つのタスクで実験。ベースラインとして多数の損失関数と比較し、Histgram Loss が安定して精度を改善していることを示した。下記表は CT Position の例。
また分析で、Histgram Loss が学習により通常の Loss よりも良い表現が得られているわけではないが、スムーズな勾配を得て学習が早く進んでいることを発見している。
0. 論文
1. どんなもの?
回帰問題において、target となる連続値を直接学習・予測するのではなく、その分布を学習することで性能が上がるという報告が強化学習分野などからされており、その改善理由について調査を行った。結果として回帰タスク用の損失関数である Histgram Loss を新たに提案、これにより予測精度を大きく改善することを実験にて示し、かつ Histgram Loss による学習は最適化しやすく、かつ汎化しやすいことを発見した。
2. 先行研究と比べてどこがすごい?
3. 技術や手法のキモはどこ?
HL
は次のようにかける。4. どうやって有効だと検証した?
CT Position, Song Year, Bike Sharing の3つのタスクで実験。ベースラインとして多数の損失関数と比較し、Histgram Loss が安定して精度を改善していることを示した。下記表は CT Position の例。
また分析で、Histgram Loss が学習により通常の Loss よりも良い表現が得られているわけではないが、スムーズな勾配を得て学習が早く進んでいることを発見している。
5. 議論はある?
6. 次に読むべき論文は?