Open nogawanogawa opened 7 months ago
sequential recommendationにおいて、長期的なユーザーの行動と短期的な行動の両方を取り込むことによってモデルの性能を改善したという論文。
ベクトル検索では高次元のベクトルを大量に扱う必要があり、インデックスのサイズが大きくなってメモリの問題が発生しがち
faiss.IndexPQ
として提供されているhttps://arxiv.org/abs/2404.05225
Chuwei Luo, Yufan Shen, Zhaoqing Zhu, Qi Zheng, Zhi Yu, Cong Yao
CVPR 2024
文書のレイアウト情報が文書理解に不可欠であることは広く受け入れられているが、LLMに直接テキストを与えて文書レイアウト情報を伝達することは通常困難である。 平坦化されたテキストか座標付きのテキストとして表現されることがあるが、平坦化はレイアウト情報を排除し、座標情報があったとしてもLLMがこのフォーマットを効果的に理解出来るとは限らない。
MLLM等を利用する動きもあるが、通常画像のキャプションなどに利用される関係で、文書のレイアウト情報を抽出することは一般的に困難になってる。
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. https://github.com/wantedly/machine-learning-round-table/issues/240
What
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!