YSU SW2 0924

Creator

Creator

Seonglae Cho

Created

Created

2023 Sep 24 11:47

Editor

Editor

Seonglae Cho

Edited

Edited

2023 Sep 24 13:28

Refs

Refs

안건

각자 알아온 것 정리

논문정보
발전 아이디어

조성래

odqa, kbqa

Retrival embedding 성능 높이기

Retrival embedding 을 prompting으로 성능 높이기

retreival 강화학습을 qa결과와 reward function 했을 때

서혁준

LLM api get multiple response

combiner

grammar error correction task

김건하

NLP RL reward function이 context를 고려 못한다

RLHF

human preference를 반영한 PPO기반

NLPO

개선

code generation RL

부분적이 아니라 error 가 전체적으로 봤을 때 생길수도

RL로 unit test 결과로 reward 일부 사용

RL 로 못보는 부분을 계속 보완

질문

object function으로 안되는 AI aligment 위주로 rl한다

황규연

RL 기존 summarization 방식 length 가 아니라 다른 방식으로

summarization 아니더라도

document concatting strategy

step by step

Recommendations

///////