almost weekly useful materials - 07/12 -

GENZITSU commented 10 months ago

NICTでの大規模言語モデルの研究開発

LLM勉強会第二回にて共有されたNICTで行われている日本語版GPT40Bの学習に関する情報共有資料

気になったところだけ抜粋

出典

NICTでの大規模言語モデルの研究開発

GENZITSU commented 10 months ago

LLM勉強会 Domain adaptation (Language Models in Biomedical Domain)

第二回LLM勉強会にてLLMを医療ドメインにdomain adaptationする際のモデルサイズごとの適切な戦略を紹介している資料 from NII

モデルサイズが~1Bの場合はスクラッチで学習した方がよく、3B ~ 100Bの場合はContinual training + domain specificなinstruction tuningが良い戦略とされている

気になったところだけ抜粋

実務的にとても重要そうな知見
Continual trainingは通常関連ドメインのドキュメントを用いてfull parameter をMLMで学習することを言うので、いわゆるfinetuningとは別物であることに注意
- 直感的にはモデルに知識を覚え込ませると言う点でみるとMLMの方がたしかに合理的に見える

出典

LLM勉強会 Domain adaptation (Language Models in Biomedical Domain)

GENZITSU commented 10 months ago

RAGアプリにおけるプロンプトとtemperatureの応答品質への影響ほんとのところ

人事FAQに対して作成したRAGにおいて、promptやtemperatureが同性製品室に影響を与えるかを検証した事例の紹介

重要そうなところだけ抜粋

曰くRAGにおいては

temperatureの影響は軽微で、高い方が生成品質が高い時がある
英語によるpromptingよりも日本語の方が質が高い
ロールをきちんと指定する

スクリーンショット 2023-06-30 10 33 59

スクリーンショット 2023-06-30 10 34 17

スクリーンショット 2023-06-30 10 34 28

スクリーンショット 2023-06-30 10 34 35

スクリーンショット 2023-06-30 10 34 44

出典

RAGアプリにおけるプロンプトとtemperatureの応答品質への影響ほんとのところ

GENZITSU commented 10 months ago

人名とニックネームが混じった検索の改善

表題の通り

実施したテクは以下

n-gramによる部分一致検索 (今回は3)
ひらがな/カタカナ, 大文字/小文字の統一
半角/全角スペースの削除
完全一致時と部分一致でスコアに差をつける

出典

人名とニックネームが混じった検索の改善

GENZITSU commented 10 months ago

外部データをRetrievalしてLLM活用する上での課題と対策案

RAGを行う上で考えなくてはならない具体的な課題と対策案が述べられている良記事

課題1: retrievalに適さない形でソースデータがsplitされる場合がある

ソースデータの構造によってはタイトルにだけ固有名詞が振られており、本文中には対象の名称が一切含まれていない場合がある。 (記事中の例ではタイトルにポケモンの名前、本文にポケモンの説明) この場合、queryをembeddingしただけでは本文中の関連箇所を抽出できない場合がある。

考えられる対策

ソースデータの構造を意識して文章を格納する
- 例えば、分割したそれぞれの本文の先頭に「固有名詞の説明: 」などのマークをつける
queryを明確にする
質問文を検索しやすい別の文章に置き換えてから類似度を測る
- LLMで仮の回答結果を生成させるHyDEが有名 (ただしこいつはめっちゃ遅い 10~30s)
情報量のない文章を事前に削除しておく
ソースデータをretrievalしやすい形にLLMで整形し直す

課題2: LLMが見たことない単語を扱う場合

LLMを学習した際に見たことのない単語を含むqueryはembeddingも不安定になることが想定される (記事の例ではポケモンのニャオハ)

考えられる対策

単語の共起ベースで類似度を計算する
未知の単語を含んだコーパスでembeddingモデルを再学習する
未知の単語を既に含んでいる別のモデルを利用する

高品質なRAGを作成するためには情報検索領域の手法を積極的に取り入れていくことが必要そう
「ソースデータをretrievalしやすい形にLLMで整形し直す」というのは界隈でもやり方が模索されている印象
- 例)「XXはYYです」のような文章を事前にLLMでたくさん作っておく。HyDEを事前に行なっているという見方もできる
query → queryをretrievalしやすいformatに整形 → retrieval という方法もありそう
- 例) ReAct的なのを利用して、このqueryを達成するための検索ワードを生成してください
どんぴしゃの回答を出せなくても、ここら辺調べればいいんじゃね？的な推薦で助かるケースもあるか

出典

外部データをRetrievalしてLLM活用する上での課題と対策案

GENZITSU commented 10 months ago

DockerイメージからDockerビルド時の履歴を確認する方法とは？

以下のコマンドで確認可能

docker history <イメージ名>:<タグ名>

実行結果

スクリーンショット 2023-07-04 9 02 20

出典

DockerイメージからDockerビルド時の履歴を確認する方法とは？

GENZITSU commented 10 months ago

AWS不要なリソースの削除を対応したのお話

AWSのコスト削減をする際にチェックするべきポイントがまとまっている良記事

出典

AWS不要なリソースの削除を対応したのお話

GENZITSU commented 10 months ago

CNN+ViTモデルの傾向【サーベイ】

CNNとViTの認識傾向の違いをまとめ、ViTのアーキテクチャ改善動向についても触れられている記事

以下重要そうな点を抜粋

CNN

カーネル範囲で特徴抽出

局所的な認識に有効→エッジなどの低レベル特徴を認識

ImageNetで高精度化

様々なタスクにおいて高性能

ViT

画像をパッチに分割し全体の関係性を捉える

浅い層から受容野が広い→高レベル特徴を認識

超大規模モデルで高精度

Transformerベースの可能性は無限大

局所的な認識のCNNはテクスチャに依存し，大局的な認識のViTは形状に依存する

CNNは高周波を認識，ViTは低周波を認識する特性がある．そのため，画像全体に高周波ノイズを付与した場合，高周波認識を行うCNNに影響があり，精度を低下させる．反対に，低周波ノイズを付与した場合は，ViTの精度が低下する．画像に自然ノイズ，敵対攻撃などを加えノイズへの頑健性を調査した．結果として，有効なモデルがあるわけでななく，引き分けの結果である．