Steering Vector Side Effect

Creator

Creator

Seonglae Cho

Created

Created

2025 Aug 20 14:3

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Aug 21 13:11

Refs

Refs

Analysing the Generalisation and Reliability of Steering Vectors

Steering vectors (SVs) are a new approach to efficiently adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of...

https://openreview.net/forum?id=v8X70gTodR

SER

https://arxiv.org/pdf/2508.12535

Recommendations

////////