Learning Models of Indeividual Behavior in Chess

mei28 commented 1 year ago

一言で言うと

論文リンク

著者/所属機関

McIlroy-Young, Reid; Wang, Russell; Sen, Siddhartha; Kleinberg, Jon; Anderson, Ashton

投稿日付(yyyy/MM/dd)

KDD2022

先行研究と比べてどこがすごい？

技術・手法のキモはどこ？

どうやって有効だと検証した?

次はなに読む？

mei28 commented 1 year ago

ABSTRACT

人間の振る舞いを捉えるAIは役に立つ

人間がAIから学ぶ
機械と協働する
長期的にパートナーとして関わる

既存研究では，集団的人間の振る舞いを模すことは行っているが，個人的な振る舞いを持つことは行っていない．

人間の振る舞いを模して訓練されたAlpha zeroのライブラリMaiaから出発し，個人の動きを系列のfine-tuningを適用することで向上させた．

個人化したstylometryを適用することで，特定の人間の意思決定を再現できる．

スタイロメトリー　文章スタイル上の特徴を統計的に分析して，特定，同定すること

mei28 commented 1 year ago

機械学習モデルが人間の能力をはるかに上回り，人間が機械と学ぶようになってきた．

機械の振る舞いは人間とはとてもことなる
機械と人間のギャップを埋めるために，ドメインでの最適なポリシーを近似するのではなく，人間のポリシーを近似する必要がある

チェスを題材に，人間の振る舞いを学ぶことについて考える

2005年にチェスが人間を凌駕した
オンラインゲームで大量のデータがある
既存研究ではMaiaを用いて，特定のスキルレベルではどのような手を打つかの予測を行ってきた．
- 複数のモデルを雑なスキルレベルで分割し，学習することで，大まかなレベルでの予測を行った

集団の振る舞いを模すことはできたが，個人レベルでは未だ至っていない．

個人を完全に模倣することができれば，インタラクションの自動化に大きく役に立つ

チェスモデルを個人適用するために，fine-tuningを用いる．　これまでの集約モデルとは違って個人の予測精度が向上した．

個別化されたプレイヤーモデルは一意に差別化できる．

100ゲーム与えると，誰がプレーしたかを400人の中から98%で当てることが可能
ミスも含めて理解しているので，どこをどう直せばいいかを考えることも可能．

mei28 commented 1 year ago

related work

転移学習の文脈を取りれいてる．→ 他にも模倣学習，ドメイン適応，メタラーニング，マルチタスク学習にもちかい．

転移学習においては，できるだけ，少ないサンプル数での学習を目標にしている．しかし我々は多いデータを用いて，個別化することを目標にしている．

我々の問題は，個人と近い個別のモデルを獲得することである．通常の機械学習は，専門家を模倣するように学習していくが，今回は，すごいモデルからそれぞれ個別に変化することを目標としている．

個別のモデルを特定するために，既存研究では，プレイヤー識別しか行うことができず，埋め込みを介してのみ動作していた．

我々の研究では，個別化されたモデルを学習しさらに，個別を特定することが可能であると言う点で違う．

opponent modddeling literatureでは，cardinal や mixture-of-experts戦略などをとるが，我々は，resnetを利用する

個人を模倣する方法は，いろいろ行われている．既存のチェスエンジンのレベルを弱くして合わせているだけで，模倣しているわけではない．

mei28 commented 1 year ago

データについて

Lichess：Lichessと呼ばれるチェスのオープンソースプラットフォームを使う

１億/月の対戦（20億のデータ）がある．ここでは多様な種類のプレイヤー，いろんな試合形式が存在する．
ここでは，早打ちのゲームは除外．理由としてはミス打ち，時間切れがよくあるから．
Blitzカテゴリー(3~8分ぐらいのゲーム)を対象に分析を行う．プレイヤーのレベルはゲーム内のレーティングを用いておこなう．
このデータを使うことで，数百人のプレイヤーをそれぞれ20,000試合をもとに学習を行うことが可能
2013年1月-2020年12月の対戦結果を利用
テストデータは最新のものを利用
ply:=一手
Leela Chess Zero: AlphaZeroChessの深層強化学習のオープンソースの実装.
Maia Chess: プレイヤーのレベルに沿いながら次の一手を予測できるようにした．Leelaに教師あり適用を行ったモデル．Maiaは次の一手を予想する中ではSoTA.

mei28 commented 1 year ago

提案手法では，Maiaを利用し，特定のレベルのプレイヤーの次の一手の予測．さらに，各個人に特化した予測を行う．

この手の転移学習はいろいろな方法がある．本研究では，十分な数の対極があれば，どんなプレイヤーも一意に決める方法を見つけた．モデルの学習自体はMaiaだが，中身としてはいじっている -> なんで？

mei28 commented 1 year ago

パラメータ散策をするために，２つの方法について考える

40,000以上の対戦(10人以上) で初期セットを作成.その後96人のフルデータで学習．データの検証については，10plt以降を用いる．　→ 初期の動き方はある程度決まっており，当てやすいため途中の結果から，次の手を予測するため，本研究の目的は，未知の状態からプレイヤーの特徴を獲得すること．

既存研究に従って，二つの戦略について考える．深層残差ネットワークの上流部分を固定もしくわ，既存モデルのパラメータをランダムに設定

合理的な停止点でモデルを固定するのを試したところ，一般的に、勾配が浅いほど性能が向上することを見つけた．また，Maiaの重みで初期化すると，深い低視点で性能を向上させることがわかった．

既存研究では，Maiaモデルはレベルが近いモデルで学習したやつの予測が良いことがわかる．このことから，次の一手の予測を行うときに，レーティングに依存するkと尾が考えられる．予測として，レーティングが近いモデルから学習した方が効果的だとお思っていたが，実際にはどれから始めてもあまり変わらないことがわかった．ここから，一番大切なのはfine-tuningの部分をどうするか？と言える．ここからは問題を簡単にするために，maia1900からモデルの学習をおこなう．

初めの探索では，大きいステップ(15,000)，で検証誤差についてみていた．12,000ステップぐらいに向上し始めた．最終的なモデルでは，15,000, 20,000, 25,000で学習率を1/10に減少させた．

初期の行動は限られているため，学習時に利用するサンプル選択を少し工夫した．中盤，終盤を強く学習したいt前，ベータ分布に従い，どれを用いるかを決める．これは初期セットでは，検証精度の向上に役に立ったが，フルデータに対しては役に立たなかった．

最終的に学習する流れとしては， Maiaのモデルパラメータから初期化する．（モデル自体は1900から) レイヤーは固定しない．固定すると性能が失われたからステップ数とサンプリング関数は最適化する．

mei28 commented 1 year ago

Maiaをもとにして，転移学習をおこなう．400人のプレイヤーを評価データとする．各プレイヤーの80％のデータを使って個別モデルの学習を行い，10%,10%を検証，テストデータとする．メインタスクとしては，ターゲットのプレイヤーの動きを予測する．サブタスクとして，プレイヤーの動きを与えて，どのプレイヤーかを同定してもらう．

対抗手法としてMaiaモデルを用いる．Maiaは人間の手を予測するSoTAであるが，レベルやチェスの評価は結構荒い．レベルが同じMaiaモデルは予測精度が高いことを期待している．

結果的には，レーティングが近いやつほど，当てやすいことは確認した．さらに，自分達の手法では，4-5%精度の向上を確認することができた.

自分達の手法が精度が高い理由として，初期の動きの予測しやすさがあると考える

初期の動かし方にプレイヤーのスタイルが出ると考えている．(その人の定石？)
手数が増えたときにどうなるかを見ていきたい．

序盤は訓練データにある盤面が多いが，だんだん手数が増えると，未知の場面が多くなる．Maiaでは，途中からガクッと精度が落ちる場面が存在する．

この研究では，個人の意思決定をとらえる転移学習の可能性を示したい．特にチェスを使っている理由として，学習データのサイズが個人の意思決定をどれだけとらえることができるかが容易に計算が可能．

試合数とモデルの性能には相関が見られた．少なくとも5,000試合以上データがある際は，Maiaのベースモデルよりも性能が高くなることは確認．一方で1,000ゲームではMaiaの方が優れている．これはOver fittingのせいじゃないかと考えている．

Maiaとくらべ，個別モデルのスキルレベルの推定は，ターゲットのレートに依存しない．

mei28 commented 1 year ago

個別モデルが高い精度を達成するとき，これらのモデルがどれだけ個別化（ユニークなのか?）が気になる．どのくらいまで，個別の動きを把握できるのか？

検証するためにプレイヤーAのモデルを使って，別の人の動きの予想を行う． 10pliesを与えることで，100game中94.5％で識別ができた ->　個人の特徴を捉えられているんじゃない？少ない試合のサンプル数だけでも，選手を一位に特定できるのは面白い．

より細かく見るために，400人のプレイヤーをもとに，plyのcutoffとゲーム数の関係について分析する． cutoffが遅いほど，初期段階の手が少なくなり，タスクとしては難しくなる．cutoffの数字が高くても，試合数がある程度あると，十分な精度が出る．ランダムな予測だと25%ぐらい

プレイヤーのミスについても同様に見てみる．ここでいうミスの定義は勝率を10%以上下げるものとして，誰のミスか？を同定するタスクを行う．精度がわずかに向上した． -> ミスが同定するのに高い要素であることが言える．

じゃぁ個別モデルをどう使っていくのか？既存のMaiaモデルと比べて，個人としての性能が高かった → プレイヤーがもたらすミスを再現できるので，そこを改善するために利用できる．

mei28 / TSUNDOKU