Shoichi-Hasegawa0628 / summary_paper

0 stars 0 forks source link

基盤モデル,大規模言語モデルの調査 #42

Closed Shoichi-Hasegawa0628 closed 1 year ago

Shoichi-Hasegawa0628 commented 1 year ago
Shoichi-Hasegawa0628 commented 1 year ago

AI開発の新たなパラダイム「基盤モデル」とは (RECRUIT Data Blog) https://blog.recruit.co.jp/data/articles/foundation_models/#%E8%AA%B2%E9%A1%8C

基盤モデル 大量かつ多様なデータで訓練され, 多様な下流タスクに適応 (ファインチューニングなど)できるモデル (GPT-3, PaLMなど)

nagare

スケーリング則 (Scaling Law) 基盤モデルの性能に関する経験則のこと. 基盤モデルの性能は,以下の3変数のべき乗則に従う.

scaling law

これらの3変数を大きくすればモデルが向上する AI開発のパラダイムは「タスク毎に専用のモデルを開発」から「最強のモデルを1つ作って使いまわす」にシフトしている

「言語」の基盤モデル

このような工夫をプロンプトエンジニアリングという. (場所概念は観測情報とかを工夫してたから,特徴量エンジニアリングとでもいうのかな) (プロンプトって,記号論理でいうクエリ?なのかな)

「視覚と言語」の基盤モデル

CLIP テキストと画像を同じ特徴空間に写像する2つのエンコーダからなる.

  1. 各候補クラスの文章の形式にした後,テキストエンコーダに入力
  2. 画像からベクトルを得る
  3. 1と2のベクトルでコサイン類似度を計算し,最も類似度が高いクラスを出力

clip

(個人的に気になったのは,異なる情報をどうやって次元サイズを合わせて計算したのだろうか.Encorderとか何使ってるんだろう)

Gato 視覚,言語に加え,数値(連続および離散)も取り扱えるようにしたもの. ロボットハンドの操作から画像キャプション生成まで1つのモデル (同じ重み)で解ける.

おまけ

Shoichi-Hasegawa0628 commented 1 year ago

GPT-3におけるFew-Shot・Zero-Shotの違い https://zenn.dev/dhirooka/articles/34205e1b423a80

few