Mitigating prompt injection attacks with a layered defense strategy

サマリ

Prompt injection content classifiers
1. 悪意のあるプロンプトを判定する機械学習モデルを実装
Security thought reinforcement
1. プロンプトに標的を絞ったセキュリティ指示を追加し、敵対的な指示を無視する仕組み
Markdown sanitization and suspicious URL redaction
1. markdownのsanitizerが画像URLをレンダリングしないようにしてる
2. URLの生成がされる場合、Googleセーフブラウジングに基づくURL検出機能が動く
User confirmation framework
1. contextに応じてユーザ確認を求める仕組みがある
2. Human-In-The-Loop(HITL)と呼ばれる
3. 例えばカレンダーイベントの削除とかは確認を求めて即座に実行されないようにする
End-user security mitigation notifications
1. 上記の防御機構が動いた場合、ユーザにそれを表示し類似の攻撃に警戒できるようにする

ええやん
今週の記事のMSのやつは1, 3の機能を突破されたってことだろうな
- ということはGeminiも突破される確率は0じゃないと思っておいた方がよさそう
- イタチごっこなんだろうなぁ
4が結構workしそうでよさそうと思った(全部は守れないと思うけど)