RRHF

Creator

Created

2023 Jul 15 17:5

Editor

Edited

2023 Sep 9 17:10

Refs

efficiently align language model output probabilities with human preferences as robust as fine-tuning and it only needs 1 to 2 models during tuning

///////