RL 구조를 LLM으로 할 필요는 없을듯 하다
instruct data 요즘 오픈된 게 많아서 llama attention으로 모델 처음부터 설계하고 학습시켜보는 방법도 있을듯?
주제 후보
- 기존
- Document AI question answering
- extractive prompt retriever
- 아예 강화학습으로 가려면 Language Model RL
의견
- task specific 하게 가고싶지는 않다. 일반적으로 적용 가능한
구체적인 후보
- static
- dynamic
주제
- 교수님이 보낸 논문 비슷하게 QA RL로 저는 관심이 가긴 한데 여기에 document retreival이나 prompting 적용
KBQA
knowledge graph 대상이라 데이터 만들기 어렵다
ODQA
retrieval 하면 좋은 점이 langchain compatble inheritance retriever 만들어서 langchain pr? FiD
결국 요즘 대세는 sentence embedding
sentence embedding 만드는 것의 prompt를 변형시켜서 QA성능을 향상시킬 수 있을까?
거기 리더보드 점수 벤치마크 올리는 것을 목표로
- documents < context - question과 documents로 추가생성 요청 (O(1) unlike O(n) step in map reduce)
merge sort처럼 tree로 합치기
- documents > context - 이때가 문제인데
- 일종의 summary 같은 역할일듯
Code Generation
내가 좋은 아이디어 있다
9/27 회의
- RL 같은 경우 retrieval similarity 는 유사성만 보니 거기에 정답이 있는지를 반영하지 못한다
- 그래서 reward function에 질문과 document 의 유사도만 반영되는 게 아니라 대답과 document 유사도 높은 것을 retrieval 하도록 반영한다면?
- 왜냐면 개인 경험상 (당연하지만) question 으로 retrieval한 document 보다 answer 로 retrieval한 documents 들이 더 필요한 정보를 포함했다
CodeRetriever
유사
- https://arxiv.org/pdf/2308.12574.pdf summary prompt유사한데 figure 6,7 보면 prompting으로 요청만 하고 훈련은 없다
- https://python.langchain.com/docs/modules/data_connection/retrievers/contextual_compression/ 의도와 컨셉 자체는 비슷하나 extractive방향성만 제시하고 summary나 명확한 구현법이나 훈련은 없다
- https://arxiv.org/pdf/2305.14788.pdf text 2 text는 아님
Seonglae Cho