エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Universal and Transferable Attacks on Aligned Language Models
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Universal and Transferable Attacks on Aligned Language Models
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou1, Zifan Wang2,... Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou1, Zifan Wang2, Nicholas Carlini3, Milad Nasr3, J. Zico Kolter1,4, Matt Fredrikson1 1Carnegie Mellon University, 2Center for AI Safety, 3 Google DeepMind, 4Bosch Center for AI Overview of Research : Large language models (LLMs) like ChatGPT, Bard, or Claude undergo extensive fine-tuning to not produce harmful content