Agent Interpretability

Creator

Seonglae Cho

Created

2025 Nov 1 16:11

Editor

Seonglae Cho

Edited

2026 Jun 1 14:36

Refs

Decision SAE

AI Task vector

Action Interpretability, Decision Interpretability

Agent Interpretability Types

Tool Calling Interpretability

RNN transition model Interpretability RL

We confirmed that mechanisms very similar to the main components seen in classical search algorithms (plan/search) exist inside the RNN: plan representation, state transition model, and value function.

arxiv.org

https://arxiv.org/pdf/2506.10138v1

Recommendations

/////////