[2021/07/01]推薦・機械学習勉強会

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は松村(https://twitter.com/yu__ya4) まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

What

Wantedly では隔週木曜日に

推薦の評価指標について議論したい
〇〇っていうライブラリ / フレームワークを導入してみたい
他社の基盤事例をみんなにシェアして自社の基盤開発に活かしたい
もっと推薦を良くするためにどんなものが必要か議論したい

といった話をする「推薦・機械学習勉強会」を開催しています。この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！会の間に話した内容もここにメモしましょう！

prev: #104

推薦システム初心者におすすめの手法「行列分解」とは？～特異値分解からCB2CF法によるコールドスタート問題解決まで～

~~無人島に1つだけ持っていくなら?ランキング第1位の~~行列分解のチュートリアル. SVDから始まり, WMF, CB2CF という順番で具体例を踏まえて解説されている.

ここで紹介したもの以外にもいくつかアルゴリズムが存在し、非負値行列分解（Nonnegative matrix factorization）は特によく用いられるが、多くの場合 WMF よりも精度が劣る。

いつか比較してみたいと思った.

機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察

機械学習の価値はビジネスモデル次第であり, そのビジネスモデルで価値を最大化するためには評価指標が重要であるという主張について簡単な例と考察付きで紹介されている. 設計は大変だがその分ご利益があると思っていて, 効果の見積もりや期待値調整, モデリングなどでウンウン悩まずに済むので便利だと思う.

「マンガアプリ」失敗の本質, 急成長中の漫画アプリ『ピッコマ』が目指す「紙とデジタルが共存する生態系」

マンガアプリの課金モデルの考察の記事とピッコマでのデータ活用の記事を読んだので, 気になったところをまとめた.

競合サービスと比べて作品数の少ないピッコマだが, データとアルゴリズムを活用した推薦に加えて, 作品をコントローラブルに運営するための「専用チケット」の存在によって, ユーザと作品のマッチングをうまく促進している.

フリーミアムモデル
- 無料で広くユーザを集めて一部のユーザが課金
- 「待てば無料」の効果
  - 習慣化
  - サンクコストバイアス
  - 焦らし効果(hakubishin思いつき. 課金の誘発, 特に期間が長いほど大きそう. 日 < 週 < 隔週とか)
  - 課金の閾値下げ(hakubishin思いつき. ここまで無料で読ませてくれたんだから, みたいな)
マッチング
- ピッコマの場合は, 作品ごとに無料でみれるチケット「作品専用チケット」という概念が存在
  - ユーザの利便性は低くなるし、運営のコストも高くなりそう
  - 専用チケットがなく、コインしかなければ、コインを送っても、私たちが運営したい作品に使われない可能性が高い。どんなところでも使えるコインでは作品の運営ができないと思っています。
- チケットによる作品の運営例
  - 離脱したユーザへのチケット送付
  - 作品を読む可能性の高いユーザへのチケット送付
  - ピッコマが「作品専用チケット」を巧みに運用することで、(1)ユーザーの離脱を防ぎ、(2)潜在的読者と作品を出会わせる（マッチングする）ため、切り札として利用している
  - プラットフォームビジネスの大前提は、供給側（Supply side）の品揃えの豊富さ（作品数の多さ）です。その一方で、作品数の多い（約43万点）LINEマンガを、作品数の少ない（約6万点）ピッコマが追い上げています。
- スロットのパーソナライズ
  - 表紙を変えることでユーザの行動が変わる
  - 一部ユーザで探索し, その他のユーザで利用
    
    「ピッコマは（個人化）レコメンドのために何を分析しているかというと、一部のトラフィック、10%の読者のみに、様々な作品を露出し、その10%のユーザーから閲覧転換率（のデータ）を得ています。最初から全体に見せない理由は、トラフィックがムダになるからです。10%の人のみで検証して、その中で一番閲覧転換率が高かったものを、残りの90%の読者にお勧めするというロジックになっています。」
  - バイアスを考慮して, あえて推薦を使わない選択も取っている.
    
    「このように、ピッコマでは2年間、AIの専門チームを稼働しながら、最先端の技術を開発し、使っているのですが、その素晴らしい研究結果も、プラットフォーム全体の60～70％だけに適用しています。なぜなら、すべてをデータに依存すると、偏った作品ばかり読むリスクがあるからです。」

パーソナライゼーションに関する過去の取り組み、開発の進め方、開発体制についても記載されている。

「本当は欲しいのに、お客さまが認識していないもの」が、自動的に表示されている。そんなホーム画面を作りたいのです。

【論文メモ: Google Drive Recommendation】Improving Recommendation Quality in Google Drive

身近な推薦の題材だったので、ちょっとした紹介。（KDD2020）アイテムのフィルタリングからランキングまで、改善していった経緯の話。

全体の流れとしては下記のような流れになっているらしいです。

ざっくりやったことは下記の5点。

アイテム候補の推定改善
DNNの改善
モデリングの改善
feature engineering
レイテンシの改善

【論文メモ: Latent Cross】Latent Cross: Making Use of Context in Recurrent Recommender Systems

上の論文の深堀りの意味で、ちょっと古め（WSDM2018）の論文の紹介。 NNで推薦を行う際に、ユーザーのコンテキスト情報をどうやって取り扱うかについて、Latent Crossという手法を導入。

コンテキスト情報としては、

Time Delta(前回の視聴から次の視聴までの時間)
端末（iOS/Androidなど）
表示元（トップページから再生/他の動画からのおすすめから再生、など）

などがあるようでした。

機械学習が導き出した意思決定の理由の可視化

『意思決定の理由の可視化が可能なグラフ構造の学習アルゴリズムの紹介』 https://techblog.zozo.com/entry/explainable-recommendation-kgat

機械学習から得られた意思決定の理由を明確にすることの必要性が増している

「XAI」と呼ばれる研究領域が注目されている

Attentionを用いて推薦理由を可視化・解釈可能な、Knowledge Graph Attention Networkという手法を紹介する

ZOZOTOWNに蓄積されているデータにKnowledge Graph Attention Networkを適用してみた結果の一部を紹介する

ブログかと思ったら論文だった。めちゃくちゃ完成度高い。

CAMPFIRE の統計データの一部がパブリックに

『クラウドファンディング「CAMPFIRE」をデータで見る統計ページ公開』 https://prtimes.jp/main/html/rd/p/000000359.000019299.html

https://camp-fire.jp/stats

このページはCAMPFIREのデータを取得し、統計データとして四半期に一度まとめています。サービス全体の基本情報に加え、これからクラウドファンディングを検討している方に有用なデータも公開しています。

以前紹介したクリスプサラダワークスの例とかもだけど、この辺のデータをパブリックにする流れが出てきたりするのかしら。😺

wantedly / machine-learning-round-table