fulfulggg / Information-gathering

Fusion of Python and GIMP
MIT License
0 stars 0 forks source link

WalledEval:大規模言語モデルのための包括的安全評価ツールキット #18

Open fulfulggg opened 1 month ago

fulfulggg commented 1 month ago

タイトル: WalledEval:大規模言語モデルのための包括的安全評価ツールキット

リンク: https://arxiv.org/abs/2408.03837

概要:

WalledEvalは、大規模言語モデル(LLM)の安全性評価のために設計された包括的なAI安全性テストツールキットです。オープンウェイトモデルとAPIベースモデルの両方を含む、多様なモデルに対応し、多言語安全性、誇張された安全性、プロンプトインジェクションなど、35を超える安全ベンチマークを備えています。このフレームワークは、LLMと判定ベンチマークの両方をサポートし、未来時制や言い換えなど、さまざまなテキストスタイルの変異に対する安全性をテストするためのカスタムミューテーターを組み込んでいます。さらに、WalledEvalは、新しく、小型で高性能なコンテンツモデレーションツールであるWalledGuardと、文化的文脈における誇張された安全性を評価するためのベンチマークであるSGXSTestを導入しています。WalledEvalはhttps://github.com/walledai/walledevalAで公開されています。

fulfulggg commented 1 month ago

論文要約

論文要約: WalledEval:大規模言語モデルのための包括的安全評価ツールキット

WalledEvalは、人間にとって安全なAI を作るために、AIの頭脳である大規模言語モデル(LLM)の安全性を様々な角度からチェックする 総合的なテストツール です。

特徴:

WalledEvalは、より安全で信頼性の高いAI開発を促進するための重要なツールです。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました:

以下の新しいラベルが作成され、適用されました: