Open GENZITSU opened 10 months ago
第二回LLM勉強会にてLLMを医療ドメインにdomain adaptationする際のモデルサイズごとの適切な戦略を紹介している資料 from NII
モデルサイズが~1Bの場合はスクラッチで学習した方がよく、3B ~ 100Bの場合はContinual training + domain specificなinstruction tuningが良い戦略とされている
気になったところだけ抜粋
人事FAQに対して作成したRAGにおいて、promptやtemperatureが同性製品室に影響を与えるかを検証した事例の紹介
重要そうなところだけ抜粋
曰くRAGにおいては
表題の通り
実施したテクは以下
メモ
RAGを行う上で考えなくてはならない具体的な課題と対策案が述べられている良記事
ソースデータの構造によってはタイトルにだけ固有名詞が振られており、本文中には対象の名称が一切含まれていない場合がある。 (記事中の例ではタイトルにポケモンの名前、本文にポケモンの説明) この場合、queryをembeddingしただけでは本文中の関連箇所を抽出できない場合がある。
考えられる対策
LLMを学習した際に見たことのない単語を含むqueryはembeddingも不安定になることが想定される (記事の例ではポケモンのニャオハ)
考えられる対策
以下のコマンドで確認可能
docker history <イメージ名>:<タグ名>
実行結果
小テクだが、officialでない公開imageを利用する場合はとても役に立つと思った。
AWSのコスト削減をする際にチェックするべきポイントがまとまっている良記事
実施する機会のたびに見返したい
CNNとViTの認識傾向の違いをまとめ、ViTのアーキテクチャ改善動向についても触れられている記事
以下重要そうな点を抜粋
CNN
- カーネル範囲で特徴抽出
- 局所的な認識に有効→エッジなどの低レベル特徴を認識
- ImageNetで高精度化
- 様々なタスクにおいて高性能
ViT
- 画像をパッチに分割し全体の関係性を捉える
- 浅い層から受容野が広い→高レベル特徴を認識
- 超大規模モデルで高精度
- Transformerベースの可能性は無限大
局所的な認識のCNNはテクスチャに依存し,大局的な認識のViTは形状に依存する
CNNは高周波を認識,ViTは低周波を認識する特性がある.そのため,画像全体に高周波ノイズを付与した場合,高周波認識を行うCNNに影響があり,精度を低下させる.反対に,低周波ノイズを付与した場合は,ViTの精度が低下する. 画像に自然ノイズ,敵対攻撃などを加えノイズへの頑健性を調査した.結果として,有効なモデルがあるわけでななく,引き分けの結果である.
ViTの代表的な問題点と改善方法
- 計算量が膨大
- 入力特徴量を畳み込みによりダウンサンプリング
- キー,バリューをダウンサンプリング
- SAの計算範囲を制限
- 細かい認識が苦手
- CNNの持つ局所的な認識能力を獲得
- ViTはImageNetで精度向上しない
- CNNの持つ「近い画素は関係が深い」バイアスを獲得
ViTはImageNet程度の枚数では、局所的な認識能力が生まれない?
良いまとめ。
解くべきタスクに局所的な傾向が必要か大域的な傾向が必要かで、使い分ける必要がある
function callingの関数に失敗時の挙動や意図しない入力時の挙動を書いておくことで、プロンプトインジェクション対策がある程度可能であることを紹介しているスライド
奥が深い
多言語テキスト埋め込みモデル Multilingual-E5-large とOpenAIのtext-embedding-ada-002の性能をJSTSで比較している記事
E5は以下のように学習されているとのこと
結果は以下の通りで、扱える系列長の差は大きいが、類似度判定タスクだと、open aiのモデルよりも性能が高く出ている
でもページで確認してみると、smallのモデルサイズは118Mで推論時間もかなり軽い
今日もいい天気ですね! Computation time on Intel Xeon 3rd Gen Scalable cpu: 0.022 s
largeのモデルサイズは560Mで推論時間はちょっと長くなる
今日もいい天気ですね! Computation time on Intel Xeon 3rd Gen Scalable cpu: 0.075 s
いずれにせよCPUで1秒かからないのはすごい
Pytorchの学習に利用するコード群を適切な粒度に分割してモジュール化したコードを紹介している記事。
以下のような感じに分かれていて、なかなかいい感じ
参考になる
LINEによる生成形AIの解説および、LINE内での取り組みの共有資料
特に参考になったものだけ抜粋
LLMの生成の前と後に色々ステップを設けているのが印象的。自分で何かシステムを組むときに参考にしたい。
NICTでの大規模言語モデルの研究開発
LLM勉強会第二回にて共有されたNICTで行われている日本語版GPT40Bの学習に関する情報共有資料
気になったところだけ抜粋
コメント
他の人の発表でfp16での学習は意味がなかったと紹介されていたが、NICTでfp16/bf16で学習がうまくいっているというのが驚き。 何かコツがあるのだろうか...?
出典