Contribution
LLM을 이용한 context summarizer dataset을 생성하였고, 그를 이용해 QA optimized summarizer를 학습시켰다. 해당 summarizer는 context상 QA에 무관한 noise를 제거하고, evidence를 포착하여 요약하도록 학습되었다. Reader에게 RAG 상에서 context를 요약하여 제공함으로써, 더 많은 정보를 고려할 수 있도록 하여 잠재적인 성능 향상에 기여했다. 상대적으로 작은 모델로 구현 가능한 모듈을 QA pipeline에 삽입함으로써 효율적인 성능 향상 방법론을 제시했다.
- QA task에 최적화된 summarizer를 추가한 pipeline 구조를 제안하였다.
- Prompt design으로 evidence density를 높이고 noise를 줄인 dataset을 생성하였다.[1]
- LLM으로부터 knowledge를 distillation하여 summarizer를 학습하였다.[2]
- RAG 방식을 사용하는 다양한 task에 summarizer를 이식하는 general 한 approach를 제안하였다.
- Question에 focused된 summary를 생성함으로써 interpretable한 AI pipeline을 제안하였다.
- Explainable AI knowledge distillate llm summarization approach before
- llm api 비용이 전부 context token length로 하는데 획지거으로 줄일 수있다
- gpt reader에서만 성능 좋아진다는 건 아주 general 한 way라는 거 증명하는 것
- General RAG improvement using summarizer
Contribution
- llm 이용한 summarizer dataset 생성
- qa optimized summarizer 생성
핵심
- noise 를 제거
- evidence 위한 summarizer
- 더 많은 정보 고려
- 작은 모델로 구현가능
Seonglae Cho