YSU SW2 0924

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Sep 24 11:47
Editor
Edited
Edited
2023 Sep 24 13:28
Refs
Refs

안건

  1. 각자 알아온 것 정리
    1. 논문정보
    2. 발전 아이디어
     
     

    조성래

    • odqa, kbqa
    1. Retrival embedding 성능 높이기
    1. Retrival embedding 을 prompting으로 성능 높이기
    1. retreival 강화학습을 qa결과와 reward function 했을 때
     
     
     

    서혁준

    • LLM api get multiple response
    • combiner
    • grammar error correction task
     
     

    김건하

    • NLP RL reward function이 context를 고려 못한다
    • RLHF
      • human preference를 반영한 PPO기반
    • NLPO
      • 개선
    code generation RL
    • 부분적이 아니라 error 가 전체적으로 봤을 때 생길수도
    • RL로 unit test 결과로 reward 일부 사용
    RL 로 못보는 부분을 계속 보완
    질문
    • object function으로 안되는 AI aligment 위주로 rl한다
     
     

    황규연

    • RL 기존 summarization 방식 length 가 아니라 다른 방식으로
    • summarization 아니더라도
     
     
    • document concatting strategy
    • step by step
     
     
     
     
     
     
     

    Recommendations