안건
- 각자 알아온 것 정리
- 논문정보
- 발전 아이디어
조성래
- odqa, kbqa
- Retrival embedding 성능 높이기
- Retrival embedding 을 prompting으로 성능 높이기
- retreival 강화학습을 qa결과와 reward function 했을 때
서혁준
- LLM api get multiple response
- combiner
- grammar error correction task
김건하
- NLP RL reward function이 context를 고려 못한다
- RLHF
- human preference를 반영한 PPO기반
- NLPO
- 개선
code generation RL
- 부분적이 아니라 error 가 전체적으로 봤을 때 생길수도
- RL로 unit test 결과로 reward 일부 사용
RL 로 못보는 부분을 계속 보완
질문
- object function으로 안되는 AI aligment 위주로 rl한다
황규연
- RL 기존 summarization 방식 length 가 아니라 다른 방식으로
- summarization 아니더라도
- document concatting strategy
- step by step
Seonglae Cho