Multimodal Interpretability

Creator

Creator

Seonglae Cho

Created

Created

2024 Oct 30 22:32

Editor

Editor

Seonglae Cho

Edited

Edited

2025 Oct 22 22:32

Refs

Refs

Activation Atlases

Multimodal Attention Head

Multimodal Interpretability Usages

Vision Interpretability

Audio Model Interpretability

RL Vision Interpretability

Task Vectors are Cross-Modal

Task Vectors are Cross-Modal

Task representations in VLMs are consistent across modality (text, image) and specification (example, instruction).

https://task-vectors-are-cross-modal.github.io/

Multimodal Universal Attention Head

https://arxiv.org/pdf/2406.16320

Recommendations

/////////