WalledEval：大規模言語モデルのための包括的安全評価ツールキット

fulfulggg commented 1 month ago

タイトル: WalledEval：大規模言語モデルのための包括的安全評価ツールキット

リンク: https://arxiv.org/abs/2408.03837

概要:

WalledEvalは、大規模言語モデル（LLM）の安全性評価のために設計された包括的なAI安全性テストツールキットです。オープンウェイトモデルとAPIベースモデルの両方を含む、多様なモデルに対応し、多言語安全性、誇張された安全性、プロンプトインジェクションなど、35を超える安全ベンチマークを備えています。このフレームワークは、LLMと判定ベンチマークの両方をサポートし、未来時制や言い換えなど、さまざまなテキストスタイルの変異に対する安全性をテストするためのカスタムミューテーターを組み込んでいます。さらに、WalledEvalは、新しく、小型で高性能なコンテンツモデレーションツールであるWalledGuardと、文化的文脈における誇張された安全性を評価するためのベンチマークであるSGXSTestを導入しています。WalledEvalはhttps://github.com/walledai/walledevalAで公開されています。

fulfulggg commented 1 month ago

論文要約

論文要約: WalledEval：大規模言語モデルのための包括的安全評価ツールキット

WalledEvalは、人間にとって安全なAI を作るために、AIの頭脳である大規模言語モデル（LLM）の安全性を様々な角度からチェックする 総合的なテストツール です。

特徴：

幅広いLLMに対応: 公開されているLLMと、API経由で利用するLLMの両方に対応
多様なテスト項目: 35種類以上の安全ベンチマークで、多言語、誇張表現、悪意のある指示への対応などを評価
柔軟な評価: LLMが出力した文章を様々な角度から評価
様々な言い回しに対応: 未来時制や言い換えなど、様々な表現でテストを実施
新ツール搭載:
- WalledGuard: 小さく高性能な有害コンテンツ検出ツール
- SGXSTest: 文化的な文脈を考慮した誇張表現の評価ベンチマーク
オープンソース: 誰でも自由に利用可能 (https://github.com/walledai/walledevalA)

WalledEvalは、より安全で信頼性の高いAI開発を促進するための重要なツールです。

fulfulggg commented 1 month ago

@yukihiko-fuyuki が以下のラベルを提案し、適用しました：

new-label: benchmark
llm
new-label: safety-evaluation

以下の新しいラベルが作成され、適用されました：

llm
new-label: safety-evaluation

fulfulggg / Information-gathering