almost weekly useful materials - 11/1 -

GENZITSU / UsefulMaterials

34 stars 0 forks source link

almost weekly useful materials - 11/1 - #139

Open GENZITSU opened 6 months ago

GENZITSU commented 6 months ago

ファッションにおける類似商品検索アルゴリズムの性能評価

DROBEというファッションECサイト上のデータを用いて、画像 or 言語を用いた類似商品検索の性能評価を定量/定性で行った結果をまとめているブログ

設定

スクリーンショット 2023-10-18 9 38 10

ResNet50の学習はSimSiamによる自己教師あり学習
BLIP-2についての記載はなかったがおそらく画像→商品説明文で学習
BERTは商品説明文をme5に入れた模様

評価は3万件のDROBEデータで実施

結果

スクリーンショット 2023-10-18 9 41 17

top10の正解割合が0.24前後なので、すごい良いというわけではなさそう
off the shelfのCLIPが強い
me5よりもBLIP-2が低いのはチューニングが難しいから...?学習させる際のプロンプトにも影響を受けるのだろうか？

定性評価だと以下

スクリーンショット 2023-10-18 9 42 55

スクリーンショット 2023-10-18 9 43 04

商品説明文を用いたBERTがカテゴリ/色に対する正解率が低い模様 → 説明文にはさまざまな情報が含まれるので、だけから色やカテゴリを取るのは確かに難しそう?

color jitterが入っているsim siamで学習したResNetが色に対する正解率低いのも面白い (まぁそれはそうなるだろうという感じ)

CLIP強いなというのと、自己教師あり学習で用いるaugmentationは利用目的に応じて調整しないとダメだなという学び

出典

ファッションにおける類似商品検索アルゴリズムの性能評価

GENZITSU commented 6 months ago

Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Model

context aware QAにおいて、GPT3.5で生成した日本語QAペアと人手で作成したQAペアとで、QAモデルの性能がどう変化するかを検証した論文 from stockmark

検証設定

context aware QAという設定
人工データはコンテキストを元に、QとAの両方を生成するように指示
このコンテキストは以下のデータから最初の300文字を利用して比較
- 日本語wiki記事 6,000件
- 2022/5 ~ 2023/5の期間中の日本語ニュース 6,000
- JSQuADのコンテキスト
学習データの数は
- 6,000 x (1 or 2 or 3)
- 4470 x (1 or 2 or 3)
QAモデルはGPT-NeoXのLora tuningで学習させる
性能評価はJSQuADの4,470件のQAペアによる定量評価とそこから乱択した500件のペアの定性評価で実施
- 定量評価はBERTScoreとBLEU
- 定性評価は4人の専門家によって実施

結果

わかったこと

評価データセットと類似する特徴を持つコーパス(wikiやJSAuAD)からコンテキストを抽出してQAデータセットを作成することで、性能が上がる
QAデータの作成にはzero-shotよりもone-shotの方が良い
1つのコンテキストから3つのQAデータを作成するのが効果的 (1~3で比較)

one-shot部分で提示する例は常に同じものを利用するのか？
- いくつか用意することで多様性を確保できないか？
contextの取り方を最初の300文字で固定しているが工夫の余地はないか？
- 300文字のスパンをランダムに選択する
- 文章を乱択して、コンテキストを生成する
- 一度生成したQAのQを元に関連コンテキストを類似度などで引っ張ってくる
  - ↑ちょっと怪しいか?

出典

Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Model

GENZITSU commented 6 months ago

検索システムと自然言語処理AIを合わせ、編集作業を効率化する（Yahoo!ニュースのAI事例）

多様なニュースを元に人手で作成しているQA作成業務をRetrieve-Readerアーキテクチャーにより効率化した事例の紹介

概要

Yahooニュースでは毎日100本程度のニュースをトピックスとして選出し、それにまつわるQ&Aを編集者が考案しており、業務負荷がかなり高い。

これの効率化として、編集者が考案したQに対するAを生成するシステムをRAGを構築

アーキテクチャ

Retrieval-Readerというアーキテクチャーを利用。

一度検索したドキュメントから関連部分を抽出した後に、Qに対するAの生成を実施

Retrieve部分

Qは各記事に紐づくようなので、Qを生成するべき記事と類似する記事をSolr のMoreLikeThisで検索 (BM25系で単語の登場頻度などで判定している模様)
Qは「これの背景は？」などのかなり簡素な質問となり検索がうまく行かないので、記事で検索している。

Reader部分

抽出した記事から答えとなる情報を抽出するBERTモデルを作成
- 日本語言語理解ベンチマーク JGLUEの質問応答データセットである JSQuAD や、社内で作成した文書と質問と答えのデータセットを使用して作成しています。このデータセットを利用することで、システムは読者の質問に対する最も適切な答え

検索性能の精度は人手で正解不正解を確認しており、Top5の正解率が43%, Top10で63%だったとのこと。質問応答の精度はROUGE-Lで69%、予測した回答に正解の回答が含まれている割合が40%

当初Readした内容も元にgenerateしてるのかと思ったが、readした内容だけを提示して、最後の生成は人でやってるという形だった。 JSQuADのデータを元に、抽出型モデルの作成もできるし、リランクモデルも作れるしで、ポテンシャル高そう。

出典

GENZITSU commented 6 months ago

LLMコンペ 1st place

勉強になったところだけ抜粋

Context Retriever

情報の欠損がないように独自のデータを整備
MTEB Leaderboard - a Hugging Face Space by mteb の上位20モデルを試して、最終的にe5-base-v2, e5-large-v2, gte-base, gte-large , bge-large を用いてcontextを取得
- fine tuningも試したが効果がなかった
encodeする際の入力
- wikipediaのchunk: {記事タイトル} + {記事のチャンク}
- queryは二種
  - “{prompt} {A}, {B}, {C}, {D}, {E}”
  - “{prompt} {A}”, “{prompt} {B}”, ... “{prompt} {E}”
queryをencodeする際、モデルによってはpromptをつけてencodeする
- Represent this sentence for searching relevant passages: " + row.prompt + " " + row.A,

Contextの与え方

1つよりも複数、そしてなるべく多くのコンテキストを見せる方が良かった
- training時は3つ, inference時は5つ
  - training時の数が少ないのは学習時間短縮のため
コンテキストの与える順番は解答の性能に影響を与える
- 例えば関連度が低い順に渡すと精度が下がる
- training時の順番を記憶している？
- training時に順番も考慮した方がよい…?

Generator

LLMの利用

Llama-2-7b
Mistral-7B-v0.1
xgen-7b-8k-base
Llama-2-13b

個別の選択肢ごとにencodeし、全選択肢の平均値も入れた上で、binary classificationで推論

こうすることで選択肢の順番の排除が可能 (順番のバイアスを排除するのがかなり困難だった)
ついでにtoken数も節約
全選択肢の平均値も入れることで、他の選択肢の情報を入力
- 他にも current logits - average logits, max, attention based, absolutes etc. を試した

訓練データセット中の正解コンテキストだけで学習すると過学習するのでノイズを入れることが重賞

RAGで取得したコンテキスト
その他ルールベースで生成したコンテキスト
誤ったコンテキストを混ぜることも重要?

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 2nd place

勉強になったところだけ抜粋

Context Retriever

The Hugging Face dataset にある graelo/wikipedia/20230601.en を利用
sentenceごとに分割し、overlapさせながら1000文字前後のchunkにまとめる
pyserini.index.lucene の LuceneSearcher を用いてindexing / search
contextの取得は選択肢ごとに行う

このpyseriniはsparse search/dense search両方に対応しており、hybrid検索も可能な模様

Reranker

deberta-v3-baseでquestion/answerに対するMultiple Choice形式で学習教師データはdeberta-v3-largeモデルによるpseudo-mask (question/answeringのconfidenceなどを使用?)

Generator

deberta-v3-large, mistral-7b-instruct-v0-1-4gによるMultipleChoice形式で学習難しい問題にはmistral-7bの出力を使うことで精度を向上させる

最終的な出力を得る際にXGBsootを用いてスコアリングを実施

error analysis

似たような選択肢が出てくる際に正答率が下がることを確認し、特別の後処理を追加 none of the above が正解となる場合にmap@3が下がることを確認し、対策を実施

ablation

RerankerモデルとMistral7bの貢献が大きそう

568eb4eb-a564-4951-896b-bc88df04ddeb

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 3rd place

勉強になったところだけ抜粋

Overview

4506aaf9-7ac4-47dc-aa36-ba3a2cf9c320

Context Retriever

ソースデータの欠損をattardi/wikiextractor を用いてできるだけ解消
wikiの記事を記事タイトル + section タイトル + passageにデータをindexing
- 記事選択→passage選択のようなパイプラインだと、必要なcontextが取りきれないことがあるため
ベクトルモデルにはsentence-transformers/all-MiniLM-L6-v2 · Hugging Face と BAAI/bge-small-en-v1.5 · Hugging Face を利用し、上位500件を取得し、Rerankerでtop10に絞る
ベクトルはfloat32だと容量が大きすぎるのでfloat16で実施

Reranker

ibm/re2g-reranker-nq · Hugging Face を用いた分類モデルとして学習
追加学習時は正解contextとベクトルが類似しているcontextをhard negativeとして利用することで学習を促進
正例は正解contextとのbleu scoreで1/0の振り分けを実施 (bleu scoreのsortとあまり変わらない気も)
以下のフォーマットでgpt3.5に作成してもらったデータで学習

system_message = f"""
You will be provided with TEXT from wikipedia. \
The TEXT will be delimited with {delimiter} characters.
Output a python list of 3 dict objects, where each object is \
a multiple choice question whose answers should be in \
the given TEXT and that has 5 choices each. Each object should have the following format:
    'question': <question on the TEXT>
    'option_1': <question answer option>
    'option_2': <question answer option>
    'option_3': <question answer option>
    'option_4': <question answer option>
    'option_5': <question answer option>
    'answer': <answer option key label>
    'reference_sentence': <original sentence from the TEXT that supports the answer>

You should tell me which one of your proposed options is right \
by assigning the corresponding option's key label in the 'answer' field. Also, provide the original sentence \
from the TEXT that supports the answer in the 'reference_sentence' field.

The question, the answer, and question answer options should be broad, \
challenging, long, detailed, and based on the TEXT provided.

Additionally, ensure the token distribution of question follows these statistics:
- Mean: 14.22 tokens
- Std Deviation: 7.223939 tokens
- Min: 4 token
- 25th Percentile: 9 tokens
- Median: 13 tokens
- 75th Percentile: 17.25 tokens
- Max: 49 tokens

Additionally, ensure the token distribution of each answer follows these statistics:
- Mean: 30.840 tokens
- Std Deviation: 19.883692 tokens
- Min: 1 token
- 25th Percentile: 16 tokens
- Median: 27.5 tokens
- 75th Percentile: 43.25 tokens
- Max: 100 tokens

Only output the list of objects, with nothing else.
"""

Generator

追加の学習データを作成

Answer用: potsawee/t5-large-generation-race-QuestionAnswer · Hugging Face
間違った選択肢用: potsawee/t5-large-generation-race-Distractor · Hugging Face

MultipleChoice形式で以下を学習

deberta-v3-large
google/electra-large-discriminator
roberta-large

難しい問題には70B級のモデルを利用

Xwin-LM-70B-V0.1 (llamaライセンス)
Platypus2-70B-instruct (NCライセンス)

ablation

Rerankerモデルと難しい問題へのLLMの貢献が大きそう

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 4th place

勉強になったところだけ抜粋

Context Retriever

できるだけ綺麗なwikipediaデータを利用する GitHub - attardi/wikiextractor: A tool for extracting plain text from Wikipedia dumps
- wikipediaのデータは文章ごとに分割
ElasticSearchを利用して類似文章を抽出
- 問題文 / 選択肢5つをそれぞれ1文ずつに分割し、キーワードを抽出
- 1文ずつの関連ワードごとに類似文章を抽出 (この際、対象文章の前後の文章を一緒に抽出する)
類似文章抽出には3つの尺度を利用
- Elastic Searchのスコア
- 抽出文章と問題文の編集距離 (ある意味編集距離を用いたリランキング？)
- ベクトルの類似度
  - 問題文と文章に対してはsentence-transformers/msmarco-bert-base-dot-v5 · Hugging Face を利用
    - MSMARCOのQAペアで学習しているため、より適切なembeddingが得られる？
  - 選択肢と文章に対してはsentence-transformers/all-mpnet-base-v2 · Hugging Face を利用
    - 1B sentence pairs datasetで学習している
Generatorモデルを固定してコンテキストだけ変更してvalidaitonを実施することで検証スピードを向上
- retriever用のvalidationにはSTEM以外のドメインも含めることで汎化しやすくした？

Generator

chatgptで作成されたQAデータセットで deberta-v3-largeを学習 (明言されてはいないがMultipleChoice形式か)

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 5th place

勉強になったところだけ抜粋

Overview

11d53aa4-fd2c-4bb0-a5bb-1d3c601121f6

Context Retriever

情報の欠落に配慮したwikipedia datasetのparsing

変数/数式情報の保持 (数学系の問題もあったからか？)

Sparse RetrievalとDense Retrievalの組み合わせ

Sparse Retrieval: pyseriniを用いたBM25ベースの検索
- wikiを段落(by “\n\n”)ごとに分割してluceneに格納 (数時間かかるとのこと)
Dense Retrieval
- 文章ごと: instructor-xlでベクトル化しfaissでquantize (300GB→10GB)
- 段落ごと: bge-large-enでベクトル化したもの
  - 各段落の前にタイトルをつけて検索精度を向上

Generator

chatgptでオリジナルのQAデータセットで Mistral 7BとLlama 70Bを学習

Llama-2 7B, 13B, 70B and Mistral 7Bを試して、Mistral 7BとLlama 70Bを最終的に採用
Instruction Tuning無しが性能が出た

モデルの学習にはQLoRAを利用

推論形式は以下のテンプレートの後に、"▁A", "▁B", "▁C", "▁D", "▁E" トークンが続く確率で予測

{context_0}

Question: {prompt}
A. {A}
B. {B}
C. {C}
D. {D}
E. {E}
Answer:

xformersのmemory_efficient_attention を全layerに適用することで消費GPUを線形に保つ (結果として6GBしか利用しなかった)

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16,
    use_safetensors=True,
).to("cuda")

pipe.enable_xformers_memory_efficient_attention()

with torch.inference_mode():
    sample = pipe("a small cat")

attention maskの工夫による効率的なTTA

以下の文章をencodeした後に、attention maskを各選択肢順序ごとに、切り替えることで推論を1回だけにした?
```
{context} {Q} {A B C D E} {B C D E A} … {E A B C D} Answer:
```

問題の難易度ごとに、使用するモデルを切り替えることで精度を向上

Mistral-7B-v0.1で全ての選択肢を見せた上での選択肢トークン生成確率
Llama-2-70b-hfで全ての選択肢を見せた上での選択肢トークン生成確率
Llama-2-70b-hfで全ての選択肢を見せた上での選択肢トークン生成確率 (より多くのコンテキスト)

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 6th place

勉強になったところだけ抜粋

Context Retriever

数字や数式を適切にrenderingするために独自のSTEM wikiコーパスを作成

ベースカテゴリーを設定した上でサブカテゴリを再起的に取得し、各記事をwikipedia APIで取得 (~ 500k page)

chunk分はsectionごとに実施し、大きいsectionは300tokenほどになるように分割

検索時は1個一個のsectionごとに行い、contextとして利用する際は前後のsectionも利用

検索はDense Retriever + Rerankerの2段構成

Dense Retrieverはgte-base, bge-base-en-v1.5をfine tuningしたものを利用
- fine tuning用のデータセットはChatGPT3.5/ChatGPT4/LLama-v2-70Bなどで生成した選択問題のquery/contextを利用
Rerankerはcross-encoder形式でdeberta-v3-baseをfuine tuningしたものを利用
- qeury/contextを入れて0/1を判定するように学習
- fine tuning用のデータセットはDense Retrieverと同じもの (?)

Generator

難易度別に利用モデルを変更して推論

deberta-v3-largeのSpanClassification
Mistral-7Bで全ての選択肢を見せた上での択一問題
- 他にはflan-t5-xl (3b), flan-t5-xxl (11b), llama-7b, llama-30b and llama-70bなどを試した
platypus 70bとsheep-duck-llama-70bで各選択肢のyes/noの確率差を利用
- 事前学時の形式にpromptを変更することで、性能が上がる

SpanClassificationとは以下のような推論方法

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 7th place

勉強になったところだけ抜粋

Overview

inbox_6102861_b579b81a690fa6d046945483570c4cdf_llm-overview-v4

Context Retriever

様々なデータソース x Retrieverによって多様なcontextを取得

article → sentence という2段階検索
- articleには問題文のみを利用して、sentenceには選択肢の文章も利用
- sentenceは256tokenごとのchunkにし、aritcleのembeddingには全センテンスの平均を用いたと思われる
- 記事検索にgte-smallを利用し、文章検索にはTF-IDFを用いたとのこと
TF-IDF, gte-smallによるparagraphの取得
- TF-IDFの語彙にBERT Tokenizerを利用する
計算速度工場のためのfast sparse KNN loolup

Generator

LLMの推論時にmax_new_tokens=1を指定し、余計なtokenを生成しない。

LLMをReward Modelで学習することで、AutoModelForSequenceClassificationがサポートしていないモデルも学習可能にする

入力: <context> #### <prompt> #### <option> ####
出力: yesが出力されるlogit
報酬設計: 正しい選択肢に対してyesが出力されるlogitが最も高ければchosen, そうでなければrejected

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 10th place

勉強になったところだけ抜粋

Overview

9e1a91c6-92b3-475c-82fa-c5a956693e05

Context Retriever

複数のwiki datasetからのretrieve

wikipedia dumpに対する処理

記事検索 → sentence 検索の 2段階で検索
記事検索は200 ~ 250文字でchunk化しベクトル化することで記事検索を行う (ある文章が存在する記事を取得するのか、チャンクベクトルたちの平均を使っている)
sentenceはN個の文章をMこの文章ずつoverkapするさせることでchunk化
- gte-small, bge-small-en, multilingual-e5-small を利用

公開wikiデータに対する処理

TF-IDF, bge-small-en-v1.5, multilingual-e5-small, gte-largeを利用

Generator

gpt3.5で生成した60KのQAデータで学習

1つのdeberta-v3-largeモデル(おそらくMultipleChoice形式)に入力するcontextを変化させることでensembleを実施

入力contextは長い方がよく、学習時の2倍の長さを入れて実施

省略

出典

GENZITSU commented 6 months ago

LLMコンペ 11th place

勉強になったところだけ抜粋

Context Retriever

4つのデータソースからコンテキストを抽出

英語のwikiからfaissに突っ込んで上記3方法の中でのtop5をコンテキストとして利用

prompt + answerをbgeに入れたもの
prompt + answerをgteに入れたもの
promptだけgteに入れたもの

faissにgpuを利用することで高速な検索が可能に

sentence_index = read_index("/kaggle/input/wikipedia-faiss-index-gte-small/wiki_idx.index")

res = faiss.StandardGpuResources()
sentence_index = faiss.index_cpu_to_gpu(res, 0, sentence_index)

Generator

多様なモデルでのensemble

deberta-v3-largeのMultipleChoice
deberta-v3-largeのSpanClassification
Llama2-7Bによる選択肢ごとBinaryClassification

モデルの学習時に、良いコンテキストばかりを入れると悪影響を及ぼしたので、不完全なコンテキストを入れて学習させたものをensembleに入れる

アンサンブル数は8でそれぞれ異なるコンテキストを入れたとのこと
solutionの書き振りからして、コンテキストの入れ方ごとにモデルを作っている模様

ここまでくると被りもおおくなるので、記載事項も減る

出典

solution

GENZITSU commented 6 months ago

LLMコンペ 12th place

勉強になったところだけ抜粋

Overview

0ca16c51-0b46-49d7-8f09-c66319097571

Context Retriever

3種のデータソースからコンテキストを抽出 (この際ベクトル検索後TF-IDFでReRankしているところが珍しい)

Cohere/wikipedia-22-12-en-embeddings · Datasets at Hugging Face
- BAAI/bge-small-en · Hugging Face でベクトル化
- その後、TFIDFでリランキング
Wikipedia Plaintext (2023-07-01)
- 1000文字ごとにchunk分け
- BAAI/bge-small-en · Hugging Faceでベクトル化
- その後、TFIDFでリランキング
270K Wikipedia STEM articles
- TFIDFにより検索

indexの容量が膨大になるので、6つに分割して、batchごとに距離計算をして検索を実施

bge-reranker-large を用いたリランキングよりも、TFIDFの方が良かった

Generator

deberta-v3-largeのMultipleChoice形式で推論

ChatGPT3.5で作成したデータ等でモデルを学習

embedding層も含めて学習 (そんなに特別か...?)

入力token数を512 ~ 1280など様々なものに変えてensemble

ここまでくると被りもおおくなるので、記載事項も減る

出典

GENZITSU commented 6 months ago

LLMコンペ 13th place

勉強になったところだけ抜粋

Context Retriever

cirrussearch wiki dumpのデータを文章単位でchunk化

90 words / 3文章ずつのoverlap で chunkを作成
- (length, window) = (60, 2), (75, 2), (90, 2), (90, 3), (90, 4), (120, 4), (150, 6)でいろいろ試した
faissのハイパラ
- {"nlists": 1, "M": 64, "nbits": 8}
- すなわち、一つのクラスター / 64近傍の空間を用いて検索 / 8bit量子化
ベクトルモデルはgte-baseとe5-baseを利用
- {gte, bge, e5}_{small, base, large}を試して決定

Generator

deberta-v3-large系のモデルをMultipleChoice形式で学習

学習時のmax lengthを256, 推論時は786に設定
本当は学習時も768に従ったマシンスペック上断念
256, 384, 512の中で256が最良だった (なぜだ…?収束しやすい?)

学習に利用したモデル

OpenAssistant/reward-model-deberta-v3-large-v2
deepset/deberta-v3-large-squad2
- squadで学習されているということでwikiの情報が入っていること期待
microsoft/deberta-v3-large

検索上位20件を以下のように分割してTTAを実施

[ 0, 1, 2, 3, 4, 5]
[ 0, 6, 7, 8, 9, 10]
[ 0, 11, 12, 13, 14, 15]
[ 0, 16, 17, 18, 19, 20]
このTTAでスコアがPublic/Privateで 0.007/0.005 上昇

平均値と最大値をもとにしたensemble

df = pd.read_csv("test.csv")  # len(df) == n_test_data
df["id"] = np.arange(len(df))
df = ensemble(df)  # len(df) = n_test_data * n_tta * n_models
df = df.groupby("id").mean() + df.groupby("id").max()

省略

出典

solution

GENZITSU commented 6 months ago

LLMコンペ 14th place

勉強になったところだけ抜粋

Context Retriever

問題対象となるデータの範囲を推測し、カテゴリのグラフ情報を用いてwikipediaページを収集

context searchは e5-largeとbgeモデルをfine tuningしたモデルで実施

intfloat/e5-large · Hugging Face は素のまま利用すると0.71、finetuningを行うことで0.85、TFIDFと組み合わせることで91%に上昇したとのこと
bgeは0.65 → 0.89まで上昇したとのこと
モデルの学習には OnlineContrastiveLoss を利用し、自身がポジティブ、自分と同じページにいる別の文章をhard negativeとして学習させた
- negativeにランダムなchunkを入れるよりか性能が良かったとのこと

Generator

debertaをMultipleChoice形式で利用

実際は以下の観点で細かい変更を施したたものを3つ作成しensemble

出力層の数
context → 質問 → 選択肢の順番
モデルが他の選択肢をみれるかどうか
それぞれのモデルに対して、上記の4つそれぞれのコンテクストを用いて推論

省略

出典

solution

GENZITSU commented 6 months ago

LLMコンペ 15th place

勉強になったところだけ抜粋

Overview

990365e1-a08d-432a-b82a-cbdfdff9e0ea

Context Retriever

複数のデータソース x Retrieverでcontextを抽出

全てのベクトルモデルの学習にSimCSEを利用 (具体的にどのモデルを利用したかは不明)

学習にはオリジナルの 80k train dataset を利用
SimCSEの学習にはHard Negativeを用いたSFTで実施
- 1. 普通にSimCSEを学習
- 1. そこで学習したモデルの上位5件のうち、正解以外をネガティブとして再度学習
- 通常のSimCSEで0.015、HardNegativeの利用でさらに0.005上昇

5つのRetrieverを用いて、コンテキストを抽出

Context 1

Dataset 6800K wikipedia ベクトル検索で上位1,000件に記事を絞る
そこからBM25/LGBRankerを用いて上位30件に絞る
上位30件の記事中の文章に対して、ベクトル検索で20文章を抽出
- wikipedia全記事の文章から一発でベクトル検索するにはリソースが足りないので、段階を踏んでいる?

Context 2

STEM wikipedia subset based on Cohere embeddings (2100k段落) にベクトル検索をかけて、上位5段落を抽出

Context 3

STEM wikipedia subset based on Cohere embeddings (2100k段落) にTFIDFをかけて、上位8段落を抽出
ベクトル検索よりも多いのは、精度が劣ることを加味している?

Context 4

270K Wikipedia STEM articles (2800k段落)にベクトル検索をかけて、上位5段落を抽出

Context 5

270K Wikipedia STEM articles(2800k段落)にTFIDFをかけて、上位8段落を抽出

Generator

[0.807] Sharing my trained-with-context model を参考にしたと書かれていたので、おそらくDeBERTaV3-Large を MultipleChoice形式で利用したと思われる

推論時は5種類のcontext x 2種のモデルの系10この出力を重み付き平均の形でensemble

省略

出典

solution

GENZITSU commented 6 months ago

LLMコンペ金券解法まとめ

コンポーネントごとにまとめなおしたもの

Retriever

chunk方法

token単位 (派生系: N token)
文章単位 (派生系: 1文ずつ, N文字, N文字/M文章ずつoverlkap, N文章をM文章ずつoverkap)
sectionごとに分割 (派生系: N tokenになるように適宜分割)

Dense Retriever

e5-small-v2, e5-base-v2, e5-large-v2, gte-small , gte-base, gte-large , bge-small , bge-sbase , bge-large, all-MiniLM-L6-v2, bge-small-en, bge-small-en, bge-small-en-v1.5bge-small-en-v1.5bge-large-en, bge-base-en-v1.5, msmarco-bert-base-dot-v5, all-mpnet-base-v2, multilingual-e5-small, instructor-xl

Dense Retrieverのfine-tuning

ChatGPT3.5/ChatGPT4/Llama-v2-70B で生成したMCQ問題のquery/contextペアを正例として学習
- hard negative: ランダム / 自身と同じページにいる別の文章
SimCSE
- hard negative: 1つ前のモデルで類似文章とみなされたもの

encode時の工夫

Context encode時の方法

{記事タイトル} + {記事のチャンク}
記事タイトル + passage
記事タイトル + section タイトル + passage

Query encode時の方法

{prompt}
{prompt} {A}, {B}, {C}, {D}, {E}
{prompt} {A}, {prompt} {B}, … {prompt} {E}

Sparse Retriever

pyserini.index.lucene.LuceneSearcher
ElasticSearchを用いたキーワードによる検索
TF-IDF (派生系: n-gram, BERT Tokenizerの語彙の利用)

Retrieve時の工夫

問題文用と選択肢用で利用するベクトルモデルを変える
検索は文章/sectionごとに実施し、利用するcontextは前後の文章まで含める
記事検索 → 文章検索 (派生系: 記事検索はdense/文章はsparseで取得, 記事検索はタイトルや記事中の全chunkのベクトルの平均などを利用)
faissでGPUを利用することで高速な検索を可能に
sparse retrieverでdense retrieverよりも多くのcontextを抽出する

Reranker

利用されたモデル

deberta-v3-base, re2g-reranker-nq, TF-IDF, BM25, LGMRanker

推論形式

query + contextごとにencodeした後に分類問題を解くMultipleChoice
query + contextでencodeして正解かどうかの2値分類

教師データの作成方法

deberta-v3-largeによるpseudo-mask (question/answeringタスクのモデルを流用？)
ChatGPTで作成したQAデータ

Generator

追加学習データの作成

chatgpt3.5によるQAデータセットの作成,
QAデータ作成用モデルの利用 (potsawee/t5-large-generation-race-QuestionAnswer, potsawee/t5-large-generation-race-Distractor)

利用されたモデル

MLM系: deberta-v3-large, reward-model-deberta-v3-large-v2, deberta-v3-large-squad2
LLM系: Llama-2-7b, Llama-2-13b, Llama-2-70b-hf, Mistral-7B-v0.1, mistral-7b-instruct-v0-1-4g,xgen-7b-8k-base, Xwin-LM-70B-V0.1, Platypus2-70B-instruc

推論形式

選択肢ごとにencodeした後に分類問題を解くMultipleChoice
選択肢を全て見せた後にspanごとに特徴抽出して分類問題を解くSpanClassification
選択肢を全て見せた後のA~Eのtokenが出る確率
選択肢ごとにyes or no (派生系: yesとnoの確率差)
選択肢ごとにencodeしてbinary classification (派生系: 他選択肢のencode平均などの追加)

学習に関するtips

学習データのcontextだけで学習すると過学習 → 使用コンテキストにノイズを入れた方が良い
入力トークン数を512→768→1280に増やすことで性能向上
LLMを利用する際は事前学習時のprompt形式にできるだけ合わせる
AutoModelForSequenceClassification がサポートされていないモデルに対して、trl の RewardTrainerを用いてfine tuningを実施

推論に関するtips

学習時よりも推論時の方がcontextの数が多くても良い (2倍まで長くても動作した)
layerごとに推論することでLLMを小リソースマシンで利用する
xformers' memory_efficient_attentionによる消費GPUの抑制
選択肢の順番をかえるTTA (派生系: 全組み合わせを入れた文章を一回だけ読ませて、attention maskを切り替えることで効率化が可能)
利用contextを変えるTTA
max_new_tokens=1にして余計なtokenを生成しない
学習時のmax_lengthよりも大きいmax_lengthの利用 (256→768など)

ensembleの方法

利用context,modelを変えて予測を実施し平均, 最大, 平均+最大, XGBoostなどを利用

非常に学びの多いコンペでした。

出典

上記金圏解法たち

GENZITSU / UsefulMaterials