Defense Jailbreaking

Creator

Creator

Seonglae Cho

Created

Created

2024 Nov 22 21:36

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Apr 27 18:5

Refs

Refs

Perturbative Learning

Instruction hierarchy

Input modification-based defenses

Output filtering-based defenses

Prompt engineering defenses

Execution time refusal

Jailbreaking Defense Methods

Perplexity Filter

Paraphrase Defense

Deliberative Alignment

AI Circuit Breaker

Constitutional Classifier

Adversarial Training is a method where a model is trained with intentionally crafted adversarial examples to enhance its robustness against attacks.

Adversarial Training

Continuous-Adversarial Training

Latent Adversarial Training

Refusal in LLMs is mediated by a single direction

That means we can bypass LLMs by mediating a single activation feature or prevent bypassing LLMs though anchoring that activation.

Refusal in LLMs is mediated by a single direction — LessWrong

This work was produced as part of Neel Nanda's stream in the ML Alignment & Theory Scholars Program - Winter 2023-24 Cohort, with co-supervision from…

Refusal in LLMs is mediated by a single direction — LessWrong

https://www.lesswrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction

Refusal in LLMs is mediated by a single direction — LessWrong

Circuit Breaking & other methods

https://arxiv.org/pdf/2406.04313

Constitutional Classifiers from
Anthropic AI
Constitutional AI

Heuristic rules

Constitutional Classifiers: Defending against universal jailbreaks

A paper from Anthropic describing a new way to guard LLMs against jailbreaking

https://www.anthropic.com/research/constitutional-classifiers

Constitutional Classifiers: Defending against universal jailbreaks

Backlinks

Prompt Engineering Adversarial Attack

Recommendations

////////