Self Rewarding LLM

Creator

Creator

Seonglae Cho

Created

Created

2025 Feb 23 18:32

Editor

Editor

Seonglae Cho

Edited

Edited

2026 Jan 3 22:9

Refs

Refs

https://arxiv.org/pdf/2401.10020

meta rewarding

Meta-Rewarding Language Models: Self-Improving Alignment with...

Large Language Models (LLMs) are rapidly surpassing human knowledge in many domains. While improving these models traditionally relies on costly human data, recent self-rewarding mechanisms (Yuan...

https://openreview.net/forum?id=lbj0i29Z92

Meta-Rewarding Language Models: Self-Improving Alignment with...

Recommendations

////////