Lie detector probe

Creator

Creator

Seonglae Cho

Created

Created

2025 Apr 21 14:37

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Apr 21 14:40

Refs

Refs

not SAE, just logistic regression performs well

Try training token-level probes — LessWrong

TL,DR: I train a probe to detect falsehoods on a token-level, i.e. to highlight the specific tokens that make a statement false. It worked surprising…

Try training token-level probes — LessWrong

https://www.lesswrong.com/posts/kxiizuSa3sSi4TJsN/try-training-token-level-probes

Try training token-level probes — LessWrong

Recommendations

///////////