第7章：機械学習モデルとの比較について

第7章の冒頭で機械学習モデルについて少しだけ触れられていますが、最近は、機械学習の知識のある読者も増えていると思うので、機械学習モデルとの具体的な比較があると、より理解が深まるかもと思い、scikit-learn で簡単な線形モデルとの比較をおこなってみました。

書籍の改訂を計画されているとの事でしたので、「こういう内容もあると面白いかな」というアイデアとして提供させていただきます。あくまで、一読者としての提案ですので、書籍の内容にそぐわないものであれば、無視していただいて結構です m( )m

具体的なコードは、こちらを参照ください。（「機械学習による予測」以降が新しく追加した内容です。）

ポイントとしては、

書籍のモデルの場合は、単調性や凸性に関する制約条件を明示的にモデルに取り入れることができている
機械学習モデルの場合は、これらの制約条件を「明示的」に取り入れるのは難しく、この例の場合は、次のような状況になる
- Recency と Frequency の線形予測モデル：線形モデルなので単調増加という制約は自動的に満たされるが、モデルが単純すぎてデータにうまくフィットしない（平均二乗誤差が大きくなる）
- Recency と Frequency の 2 次までの項を用いた線形予測モデル：よりデータにフィットした自然な結果が得られるが、単調増加という制約は満たされなくなってしまう。

というあたりで、いずれも「データとの二乗誤差を最小化する」という意味での最適化を行なっているものの、モデルの構成方法において、制約条件を明示的に取り入れられるかどうかという違いがある点がわかると面白い気がしています。

@enakai00 Issueに気づかず、確認が遅くなってしまい失礼しました。本書の7章まで読んでいただき感謝いたします。

線形モデルとの比較について可視化を含めた実験をいただきありがとうございます。コードを拝見させていただきました。線形予測モデルを考えた際に2次までの項を入れることは考えたことが無かったのでとても面白く読ませていただきました。味わい深いグラフですね。

ご指摘いただいた通り、

書籍のモデルの場合は、単調性や凸性に関する制約条件を明示的にモデルに取り入れることができている
機械学習モデルの場合は、これらの制約条件を「明示的」に取り入れるのは難しい

の点は、機械学習ではなく数理最適化の枠組みでアプローチするメリットの１つになります。このあたりまで読み取っていただきとても嬉しいです。

本書では初学者向けに執筆しておりますので、機械学習の知識を意識させない＆学術的な考察を入れておなかいっぱいにさせたくないという考えがあったので触れておりませんでした。しかしながら、ご指摘の通り「モデルの構成方法において、制約条件を明示的に取り入れられるかどうかという違いがある点」については数理最適化のアピールポイントなので、もっと主張しても良かったなと思い始めました。追記の検討もしてみたいと思います。

せっかくなのでもう１つポイントを紹介させてください。本書の数理モデルは単調性の制約を入れておりますが、Recency と Frequency の2次元に制約がはいっています。そのため、確率値x[r,f]は、『x[r-1, f]、x[r+1,f]、x[r,f-1]、x[r,f+1]』の四方の確率値によって制限されます。これは正則化も同時に行われていることになります。機械学習では特定の目的でl1、l2などの正則化項を目的関数に入れてモデルを緩く制限しますが、数理最適化の枠組みに持ち込むことで様々な目的の正則化を制約に表現できる点はとてもよいメリットです。正則化の制約は入ったおかげで学習データ数が少ない場合でも（一般的な機械学習と比較して）過剰適合を回避することができます。実務的な話をするなら巨大な問題は機械学習でアプローチするしかないけど、小さな問題でも特殊な制約（単調性など）が入っていて、サンプル数が少ないような問題では数理最適化によるアプローチをとることで改善する問題がある、ということになります。

以下、参考文献になりますので興味がございましたら御覧ください。

Iwanaga, J., Nishimura, N., Sukegawa, N., & Takano, Y., Estimating product-choice probabilities from recency and frequency of page views. Knowledge-Based Systems, 99, 157-167, 2016.
Nishimura, N., Sukegawa, N., Takano, Y., & Iwanaga, J. A latent-class model for estimating product-choice probabilities from clickstream data. Information Sciences, 429, 406-420, 2018.
Iwanaga, J., Nishimura, N., Sukegawa, N., & Takano, Y., Improving collaborative filtering recommendations by estimating user preferences from clickstream data. Electronic Commerce Research and Applications, 37, 100877, 2019.

また、「単調性や凸性に関する制約条件を明示的にモデルに取り入れることができている」に関心をお持ちでしたら次の論文も新鮮かもしれません。以下は、確率分布の推定を数理最適化モデルを用いて推定するアプローチをとっています。

岩永二郎, 西村直樹, 鮏川矩義, 高野祐一, 出産前後の情報検索の分析：数理最適化による検索日の確率分布推定, 人工知能学会論文誌, Vol.37, No.3, 2022.

以上、ご確認お願いいたします。

ohmsha / PyOptBook

第7章：機械学習モデルとの比較について #11