RLHF

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Apr 30 7:23
Editor
Edited
Edited
2024 Mar 1 16:38

Reinforcement learning from human feedback

인간의 피드백을 기반으로 보상 함수를 학습하고 이를 통해 policy를 업데이트
https://openai.com/blog/chatgpt
 
 
 

Limitation

LM의 근본적인 문제인 Size, hallucination을 아직까지는 개선할 수는 없는 한계점
Scaling 이슈, 너무 복잡
 
 

LLaVA-RLHF

 
 

 

Recommendations