suger-131997 / papers

0 stars 0 forks source link

Adaptive Multi-Model Reinforcement Learning for Online Database #1

Open suger-131997 opened 3 years ago

suger-131997 commented 3 years ago

0. 論文情報

タイトル:Adaptive Multi-Model Reinforcement Learning for Online Database 著者:Gur, Y. (IBM), Yang, D., Stalschus, F., & Reinwald, B (IBM).

投稿日:2021 学会/ジャーナル:EDBT 2021

1. 概要

データベースの環境変化に対応して、データベースのパフォーマンス調整を動的に行うための研究。

データベースの環境は常に変化しているため、最適なパフォーマンスを出すためには、変化を検知してパラメータを変更できる手法が必要となる。 この研究では、ワークロードの変化に対応してパラメータを変更する手法として、複数のモデルを組み合わせることを提案している。また、これらのモデルはDDPGで学習する。

2. 手法

提案手法は主に下の2つの段階に分けられる。

  1. 固定したワークロードでの学習
  2. 1で獲得したモデルの動的なワークロードへの適用及びfine-tune

1.ではいくつかの異なるワークロードで、DDPGでパラメータを調整するモデルを学習する。このモデルの入力(状態)はデータベースの状態を表す統計的なメトリクス、出力(行動)は変更後のパラメータの値である。 また、報酬としてデフォルト設定の時のパフォーマンス(スループットとレイテンシ)からの改善率を使用することとDDPGの割引率を0とすることで実行ごとのパフォーマンスのブレの影響を低減できる。

2.では、まず1で学習したモデルの中から、学習に用いたワークロードが現在のワークロードと近い複数のモデルを選択する。具体的にはワークロードの状態ベクトルをオートエンコーダで圧縮した特徴ベクトルのコサイン類似度が閾値より高いモデルを選択する。 このモデル群から確率的に実際に使われるモデルが確率で選択される。選択確率は、現在のワークロードサイクル中に得られた報酬がモデル平均より高いほど高くなるように設計されている。 選択したモデルによってパラメータを決定し、ワークロードが実行する。その後、実行結果によってモデル群の各モデルを更新する。 ワークロードが変化したことが検知された場合、モデル群を再度選択する。ワークロードの変化は現在のワークロードの特徴ベクトルが直前のワークロードの特徴ベクトルから変化したかで判断する。

3. 結果

デフォルトパラメータの結果と単一モデルでパラメータ調整した結果と比較して、提案手法がスループットとレイテンシの観点から良い結果であると確認された。

4. 議論等

この研究は2種類のワークロード変化にしか対応していないため、他のワークロードやリソースの変化などの他の要因による環境の変化にも対応できるようにする必要がある。

suger-131997 commented 3 years ago

5. 感想