Format reward

Creator

Creator

Seonglae Cho

Created

Created

2025 Apr 16 13:6

Editor

Editor

Seonglae Cho

Edited

Edited

2026 Mar 22 0:44

Refs

Refs

reduce format reward bias

AI Reward Hacking by SAE feature steeringa

https://arxiv.org/pdf/2603.12795

Recommendations

/////////