Critic based reward model

Creator

Creator

Seonglae Cho

Created

Created

2024 May 18 9:29

Editor

Editor

Seonglae Cho

Edited

Edited

2024 May 18 9:30

Refs

Refs

critique is easier than generate

rank

RLHF: Reward modeling → generate that maximize reward like PPO

RLAIF: AI critic

Recommendations

////////