nogawanogawa / paper_memo

4 stars 0 forks source link

How to Index Item IDs for Recommendation Foundation Models #98

Closed nogawanogawa closed 9 months ago

nogawanogawa commented 9 months ago

論文URL

https://arxiv.org/abs/2305.06569

著者

Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang

会議

SIGIR-AP 2023

背景

生成タスクである以上生成するIDに何らかの意味を持たせないと、全く見当違いのIDを生成してしまう恐れがある。しかし、LLMで扱えるような意味を持ったIDをアイテムに一意に割り当てるのは簡単ではない。アイテム数は膨大に存在しそれらに対して一意のIDを割り当てる必要があり、自然言語と互換性がありLLMの学習やプロンプトで扱えなければいけない。 さらに、生成されたテキストが実際のアイテムと一致することを保証しなければいけない(ハルシネーションの回避)が、制約付き複合法を用いると長文生成能力を持つLLMの柔軟性を損なってしまう。

目的

生成的推薦で使用しやすいIDの生成方法の検討

アプローチ

Sequential Indexing

下記のように、ログに登場した順にIDを降っていく。

image

このとき同様のアイテムに対するインタラクションが発生した時にはそのIDを使用する。

Collaborative Indexing

image

協調フィルタリングの成分を反映させたインデックス法。 アイテム(ノード)とその共起度(エッジ)をグラフ構造で表現し、ノードクラスタリングによってインデックスとなるラベルを決めていく

Semantic (Content-based) Indexing

コンテンツベースのインデックス。カテゴリ情報の組み合わせをIDとする。

image

Hybrid Indexing

複数の手法の組み合わせ。

ひとことメモ

OpenP5の関連論文

nogawanogawa commented 9 months ago

背景

LLMは自然言語やコンピュータビジョンのような分野に大きな影響を与えており、推薦タスクにも適用されている。 中でもP5やM6Recのような最近の研究では、自然言語のコーパスを用いて学習されたLLMの生成的推薦を利用して推薦システムとして利用することを目的としている。

推薦をするに当たって、アイテムを識別する必要がある。通常、アイテムには豊富な情報があるが、これを完全にLLMに生成させるのは難しい。そのため、何らかの形でIDを利用するのが一般的である。

生成タスクである以上生成するIDに何らかの意味を持たせないと、全く見当違いのIDを生成してしまう恐れがある。しかし、LLMで扱えるような意味を持ったIDをアイテムに一意に割り当てるのは簡単ではない。アイテム数は膨大に存在しそれらに対して一意のIDを割り当てる必要があり、自然言語と互換性がありLLMの学習やプロンプトで扱えなければいけない。 さらに、生成されたテキストが実際のアイテムと一致することを保証しなければいけない(ハルシネーションの回避)が、制約付き複合法を用いると長文生成能力を持つLLMの柔軟性を損なってしまう。

nogawanogawa commented 9 months ago

目的

生成的推薦で使用しやすいIDの生成方法の検討

アプローチ

nogawanogawa commented 9 months ago

P5の説明

参考プロンプト

According to the places user_1 has visited: location_1123, location_4332, location_8463, location_12312, can you recommend another place for the user?

このようなプロンプトで、Output: location_1934のような出力を得るようなタスクを想定している

nogawanogawa commented 9 months ago

Indexの手法検討

従来の手法は下記のようなものが検討されていた。

これらに対し、インデックスには2つの要件がある

  1. 適切な長さを維持する
  2. 類似アイテムは区別可能な状態で最大数のトークンを共有し、非類似アイテムは最小限のトークンを共有するようにする

これらの条件を踏まえて4種類の手法を検討する。

Sequential Indexing

下記のように、ログに登場した順にIDを降っていく。

image

このとき同様のアイテムに対するインタラクションが発生した時にはそのIDを使用する。 ユーザー間で似たようなアイテムにインタラクションしている場合同じtokenが頻出するような共起性が表現できる

Collaborative Indexing

image

協調フィルタリングの成分を反映させたインデックス法。 アイテム(ノード)とその共起度(エッジ)をグラフ構造で表現し、ノードクラスタリングによって

Semantic (Content-based) Indexing

コンテンツベースのインデックス。カテゴリ情報の組み合わせをIDとする。

image

Hybrid Indexing

複数の手法の組み合わせ。

nogawanogawa commented 9 months ago

評価

P5を使用したときの推薦の性能評価をした。

image

今回提案したインデックス手法を使用することで、生成的推薦によって従来の推薦手法より高い性能が得られることがわかった。また、Amazon Sports, Beutyに関してはCIDとIIDの組み合わせが最も良い性能であり、Yelpに関してはSIDが最も良いという結果になった。