-
Prompt injection content classifiers
- 悪意のあるプロンプトを判定する機械学習モデルを実装
-
Security thought reinforcement
- プロンプトに標的を絞ったセキュリティ指示を追加し、敵対的な指示を無視する仕組み

-
Markdown sanitization and suspicious URL redaction
- markdownのsanitizerが画像URLをレンダリングしないようにしてる
- URLの生成がされる場合、Googleセーフブラウジングに基づくURL検出機能が動く
-
User confirmation framework
- contextに応じてユーザ確認を求める仕組みがある
- Human-In-The-Loop(HITL)と呼ばれる
- 例えばカレンダーイベントの削除とかは確認を求めて即座に実行されないようにする

-
End-user security mitigation notifications
- 上記の防御機構が動いた場合、ユーザにそれを表示し類似の攻撃に警戒できるようにする
