imyutaro / note

my note
0 stars 0 forks source link

2023/06/01 NeMo-Guardrails for LLM by nvidia #5

Open imyutaro opened 1 year ago

imyutaro commented 1 year ago

NvidiaのLLMガードレールの仕組みをざっくり読む。

https://github.com/NVIDIA/NeMo-Guardrails

Jailbreakのexample読む https://github.com/NVIDIA/NeMo-Guardrails/blob/main/examples/jailbreak_check/README.md

  1. 自分で定義したクラスと、定義したクラスに該当するような例文をconfigに列挙
  2. LLMの入力文を、vector searchを使ってクラス分類
  3. 自分で定義したクラスかどうかで、処理を設定(以下は1例、処理は自由に設定できるぽい)
    • 該当のクラスの場合  :定義した処理を実行
    • 該当のクラスでない場合:普通に文生成

で防ぎたいコンテンツの応答を防ぐ感じかな、多分

他の解説記事