almost weekly useful materials - 04/12 -

GENZITSU commented 1 year ago

大規模言語モデルの知識を補完するための Retriever の紹介

大規模言語モデルが回答に必要とする知識を取捨選択する機構、Retrieverの代表的な研究事例を紹介している記事。

着想

LLMが持っていない知識を埋め込む方法としてpromptに関連文書を読み込ませる方法がある
関連度を図るために、LLMによってembeddingを取得する方法が用いられることが考えられるが、埋め込みの精度はLLMの学習に影響を受けるため、特定ドメインに対して好ましいembeddingになっている保証はない
そこで、オリジナルのretrieverを作成して、より良い関連文書を取得することを目指す

方法① 明示的なラベルを利用する方法

Dense Passage Retrieval for Open-Domain Question Answering (Karpukhin+ EMNLP2020)

通称DPRと呼ばれる手法で、あるQAに関してそれぞれの文書が関連しているかどうかのラベルがある設定で、Retrieverを学習
質問用と文書用で別々のBERTを利用
ラベルがない場合は、BM25の値を用いて疑似的なラベルを割り振る

SquAD以外のデータではRetrieヴェrによる学習で精度向上がみられている

スクリーンショット 2023-04-01 9 23 01

方法②: End-to-Endで学習させる

Retrieval-Augmented Generation for Knowledge-Intensive [NLP](http://d.hatena.ne.jp/keyword/NLP) Tasks (Lewis+ NeurIPS2020)

スクリーンショット 2023-04-01 9 24 53

クエリと文書を別々のエンコーダーでベクトル化
Maximum Inner Product Searchにより、top-kの文書を取得
top-kの潜在変数をseq2seqに流し込んで生成した確率分布を周辺化して最終的な生成結果を得る
Retriever の初期化には DPR を利用
検索対象文書のベクトルを都度更新するの計算量の観点でコスパが悪いが、固定しても精度はあまり変わらない

③ 対照学習による学習

Unsupervised dense information retrieval with contrastive learning (Izacard+ Transactions on Machine Learning Research 2022)

コード

Retrieverを訓練した場合、訓練で見せたドメイン以外のデータではあまり性能がでず、BM25のような古典的な手法に負けることがよくあった
クエリと文書両方に同じモデルを使ってエンコーディングし、ドメインに対する頑健性を獲得
対照学習による学習方法
- Inverse Cloze Task: 文書を3分割して、最初と最後をポジティブペアとする
- Independent Cropping: 文書からランダムにスパンを選択してきて、ポジティブペアとする
- in-batch negatives: 同一バッチ内の別のサンプルから生成されるものをネガティブとする。バッチサイズを8192とかまで大きくしないといけないのがネック
- MoCo: 過去のバッチで生成したembeddingをネガティブと見なす方法。
cross encoderの方がbi-encoderよりも性能が高いのが意外だった

スクリーンショット 2023-04-01 10 16 12

スクリーンショット 2023-04-01 10 19 36

スクリーンショット 2023-04-01 10 18 35

④: LLMの出力を利用する

REPLUG: Retrieval-Augmented Black-Box Language Models (Shi+ 2023)

Retrieverが取得したtop_kこのdocumentをそれぞれ、quertとくっつけて出力の分布を得て、それをアンサンブルする

スクリーンショット 2023-04-01 10 26 38

Retrieverは固定でも利用可能だが、Retrieverが出力した各ドキュメントのスコア分布と、LLMが出力した確率分とのKLから訓練させることが可能。
- Retrieverが出力した各ドキュメントのスコア: クエリと各文書のcos類似度
- LLMが出力した確率分: 各文書とクエリを入力した際にLLMが正解に割当てた確率から算出
訓練データには、Pileというデータから得た800Kの文章を使い、各文章の最初の128 tokenを入力クエリ、後半の128 tokenを正解yとして使用

スクリーンショット 2023-04-01 10 26 45

出典

大規模言語モデルの知識を補完するための Retriever の紹介

GENZITSU commented 1 year ago

【ChatGPT】個人的お気に入りプロンプトまとめ

ChatGPTに何かを依頼する際のテンプレプロンプトが13個ほどまとめられている

出典

【ChatGPT】個人的お気に入りプロンプトまとめ

GENZITSU commented 1 year ago

【知財・個人情報】ChatGPTをビジネスに利用する際の注意点 ['23/4/3]

ChatGPTの入出力に関する落とし穴をまとめてくれている記事

個人的に気になった点は以下

ChatGPTの利用規約

出力に関するすべての権利、所有権、および利益はChatGPT利用者に譲渡されます。 APIを経由して送受信するコンテンツはサービスの開発または改善に利用されません。一方、API以外のサービスで送受信するコンテンツはサービスの開発または改善に利用されるようです。API以外のサービスで入力したデータをサービス改善に利用されたくない場合はオプトアウトを申請できます。

個人的にはAPIに関する文言を行為的に解釈して、秘密保持契約を結んでいない範囲の社外秘のデータを送信するケースが散見されるようになってきたと思う

個人情報の入力

個人情報を処理する場合は、法令に従ってプライバシー通知を行い、同意を得る必要があります。また、適用している法令に従って個人情報を処理していることをOpenAI社に表明する必要があります。

OpenAI社のプライバシーポリシーによると、コンテンツ内に含まれる個人情報も収集されるようです。個人情報の利用目的には、新しいプログラムやサービスを開発することも含まれています。プライバシーポリシーはAPIを利用した場合には適用されません。詳しくは引用元をご確認ください。

自分の個人情報を入れる分には良いけど、人からもらって物を送るのはよした方が良さそう

著作権・商標権に関する注意点

他者の著作物をChatGPTに入力してしまうと、OpenAI社のサーバー（または社内のデータベース）に記録されるため、これは著作物の複製に該当します。しかし、適法利用の範囲であれば電子計算機における著作物の利用に伴う複製（著作権法第四十七条の四）とみなされて適法になるようです。

情報解析用途というのがふんわりしているが、節度を持った利用が必要そう。

他者の著作物を翻訳・編曲・変形・脚色・映画化等し、二次的著作物を創作する行為は、著作者の了解を得なければなりません。これを怠ると翻訳権、翻案権等の侵害になります。

たとえば勝手に翻訳して、それを販売とかすると問題になりそう。

あとは生成されたものがたまたま他の人の著作物だったり、それに類するものだったりすることもあるのでそれのチェックも必要そう。

出典

【知財・個人情報】ChatGPTをビジネスに利用する際の注意点 ['23/4/3]

GENZITSU commented 1 year ago

Reproducibility in pytorch

os.environ['PYTHONHASHSEED'] による再現性の確保ができない旨を報告したディスカッション

原因としてはPYTHONHASHSEEDはPythonのインタープリターが立ち上がる際に利用されるもので、立ち上がった後にプログラム上で設定しても遅いということが報告されている

PYTHONHASHSEED has to be set to 0 before Python even starts. The Python interpreter uses this environment variable only upon startup. So even at the beginning of your program, it's too late. The solution would be for Kaggle to set PYTHONHASHSEED when it starts Jupyter, like Colab does. Otherwise, if any part of your program uses Python's hash (or calls a library that does), the result will vary. You can try sorting your own sets to put things back in a deterministic order, but that won't help if the libs you rely on do not sort things.

実際に固定したい場合は、プログラム外の環境変数で先に縛っておく必要がある

出典

Reproducibility in pytorch

GENZITSU commented 1 year ago

ChatGPT API+LangChain+Gradioでキャラクターとお話するアプリを作る

表題の通り

LangChainには直近の会話を保存して、会話を続けるためのインターフェースが提供されているようで、それを用いることで簡単に一貫性を保った会話を行えるようにできる

# from https://qiita.com/tkmrsksk/items/7362f183138dfb324c50

# チャットモデル
llm = ChatOpenAI(
    temperature=0, 
    model_name="gpt-3.5-turbo", 
    streaming=True, 
    callback_manager=CallbackManager([StreamingStdOutCallbackHandler()])
)

# メモリ
memory = ConversationBufferWindowMemory(k=3, return_messages=True)

# 会話チェーン
conversation = ConversationChain(memory=memory, prompt=prompt, llm=llm)

出典

ChatGPT API+LangChain+Gradioでキャラクターとお話するアプリを作る

GENZITSU commented 1 year ago

GPT-4の表現は、核サンプリング（top_p）でどう変わるのか

GPT4 / もといGPT3.5のリクエストパラメータtop_pを変えることで出力がどう変わるかを調べている記事

デフォルトでは1になっているところを0.9 ~ 0.98あたりに抑えることで、Temperatureを大きくしても文章が方向しにくくなるようにできる模様

公式documentではtemperatureとtop_pを同時にいじることを推奨していなかったが、雑談のようなランダム性を持たせつつ会話を咆哮させないようにしたい盤面だと、temperatureを上げて、top_pを下げるみたいなことが有効になりそう。

出典

GENZITSU commented 1 year ago

輪読会を1Q通して運営してみて

全員が読んでおいて、当日は気になるところを議論するスタイル、良さそう

事前準備：
1. 該当章をあらかじめ各々で読んでおく
2. 読んでいて思ったことや関連するアイデアを Miro （オンラインホワイトボード）に付箋コメントとして書き起こす

当日：
1. 深堀りしたい付箋コメントに 1人 3票,4分で投票する
2. 似ているコメントをグループ化し、グループごとに得票の多いものから議論する
3. 議論後、自分達のチームに何を持ち帰れるかを言語化してみる
4. 必要に応じてworking agreementに加筆、あるいはチーム内で方針を合意する

人数が多くなると、聞くだけ(聞いてくれるのはまだましで、いるだけの人もいる)で議論に参加してくれない人が増えてきて、発表者が萎える & 参加者も実にならないみたいなことがよく発生していたので、こういうやり方に落ち着くのはある種必然か...

出典

輪読会を1Q通して運営してみて

GENZITSU commented 1 year ago

Agent and small LLM validation

LLM Meetup Tokyo #1にて発表された、軽量LLMでReActが動くかどうかの検証結果の共有

現状の軽量モデルをmac bookで動かせるように4bit量子化させたものだと適応は難しく、GPT6.7B程度のサイズが最低でも必要っぽい

スクリーンショット 2023-04-11 9 49 33

スクリーンショット 2023-04-11 9 49 56

スクリーンショット 2023-04-11 9 50 04

スクリーンショット 2023-04-11 9 50 32

出典

Agent and small LLM validation

GENZITSU commented 1 year ago

微分可能な検索インデックスについて

LLMをfinetuningすることでクエリ文章に関連した文書IDを生成させるようにする微分可能な検索インデックス(Differentiable Search Index)を紹介しているスライド。

Differentiable Search Indexでは以下のように、文書から文書IDを生成する機構と、クエリから関連文書IDを生成する機構を備えている。

スクリーンショット 2023-04-12 10 16 12

ここで生成させる文章IDは検索対象をクラスタリングしておきトライ木構造で文書IDを再起的に割り振ることで、似たような文章は似たような単語の並びになるようにすることで、意味のあるIDにしていることがポイント。

スクリーンショット 2023-04-12 10 10 50

出典

GENZITSU commented 1 year ago

OKRに書ける！知っておくだけでAWSコストをすぐ削減できる26個のヒント

CloudWawtch Logs / Lambda / DynamoDB / Aurora / NAT Gateway / API Gateway / S3 などに関するコスト削減tipsがまとめられている

出典

OKRに書ける！知っておくだけでAWSコストをすぐ削減できる26個のヒント

GENZITSU / UsefulMaterials