基盤モデル，大規模言語モデルの調査

Shoichi-Hasegawa0628 commented 2 years ago

GPT-3関連
- GPT-3のデモサイト https://gpt3demo.com/apps/openai-gpt-3-playground
- GPT-3の価格もし、GPT-3を使うのであれば、1000トークン（サブワードと同義）あたり最大でも$0.02でAPIを使えますので、数千円もあれば、十分なパターンのプロンプトを試すことができる https://openai.com/api/pricing/#faq-token
- PythonのAPIを使えば，GPT-3の予測結果を返せるらしい？
Few shot leaener
- www.amazon.co.jp/dp/B098M6JN3L
- https://arxiv.org/abs/2005.14165
- https://data-analytics.fun/2020/12/07/openai-gpt3/
- https://zenn.dev/dhirooka/articles/34205e1b423a80
基盤モデル

Shoichi-Hasegawa0628 commented 2 years ago

AI開発の新たなパラダイム「基盤モデル」とは (RECRUIT Data Blog) https://blog.recruit.co.jp/data/articles/foundation_models/#%E8%AA%B2%E9%A1%8C

基盤モデル 大量かつ多様なデータで訓練され, 多様な下流タスクに適応 (ファインチューニングなど)できるモデル (GPT-3, PaLMなど)

nagare

スケーリング則 (Scaling Law) 基盤モデルの性能に関する経験則のこと．基盤モデルの性能は，以下の3変数のべき乗則に従う．

scaling law

これらの3変数を大きくすればモデルが向上する AI開発のパラダイムは「タスク毎に専用のモデルを開発」から「最強のモデルを1つ作って使いまわす」にシフトしている

「言語」の基盤モデル

具体例
- BERT
- GPT-3
- PaLM
- Flan-T5 (https://note.com/npaka/n/n62c38906c3e4)
プロンプトエンジニアリング (prompt enginerring) GPT-3のようなモデルを与えると，予測精度は訓練データでも特徴量でもモデルでもなく，モデルに与える説明文や入出力例によって決まる ⇒ いかにモデルにとって分かりやすい説明文や入出力例を与えるかが大事 (この部分が以前松嶋さんが言っていたCLIPに関すること，LINEで試せるdiffusion modelに繋がってくる？)

このような工夫をプロンプトエンジニアリングという． (場所概念は観測情報とかを工夫してたから，特徴量エンジニアリングとでもいうのかな) (プロンプトって，記号論理でいうクエリ？なのかな)

「視覚と言語」の基盤モデル

CLIP テキストと画像を同じ特徴空間に写像する2つのエンコーダからなる．

clip

(個人的に気になったのは，異なる情報をどうやって次元サイズを合わせて計算したのだろうか．Encorderとか何使ってるんだろう)

Gato 視覚，言語に加え，数値(連続および離散)も取り扱えるようにしたもの．ロボットハンドの操作から画像キャプション生成まで1つのモデル (同じ重み)で解ける．

おまけ

「視覚」の基盤モデル
- DINO：自己教師あり学習で訓練
- ConvNeXt：ImageNetのクラス分類で訓練 ⇒ 「自然言語によるタスク説明」を受け取れないため，「単一モデル，追加の学習なしでオープンエンドなタスク」は解けない

Shoichi-Hasegawa0628 commented 2 years ago

GPT-3におけるFew-Shot・Zero-Shotの違い https://zenn.dev/dhirooka/articles/34205e1b423a80

GPT-3におけるFew・One・Zero-shot
- Few-Shot 推論時のタスクに関する説明と少量のデモンストレーションを与える方式 (モデルのパラメータは更新しない)
- One-Shot デモンストレーションの数が1つであるケース
- Zero-Shot 推論時には, タスクに関する説明のみが与えられる．
一般的なFew・One・Zero-shot (GoodfellowらのDeep Learningの15章の15.2)
- Few-Shot 少量のラベル付きデータが与えられる設定
- One-Shot ラベル付きデータが1つだけ与えられる設定
- Zero-Shot 学習時に入力データが存在しないクラス (ここでは「猫」)でも，それを補うような追加情報 (猫は尖った耳と4本の足を持つなど)が利用できれば，予測が期待できる．というもの

few

Shoichi-Hasegawa0628 / summary_paper