ReSRer Future works

Creator
Creator
Seonglae ChoSeonglae Cho
Created
Created
2023 Dec 14 6:42
Editor
Edited
Edited
2024 Jan 27 6:57
Refs
Refs
does this method works for not only simple questions or also works well for complex tasks

가설

만 가지고 계속 summarize recursive, exponential 반복하면 성능을 context 내에서 최대한으로 올릴 수 있다
[diagram required]
notion image
  1. 일단 제안에 앞서 AI 자체에 대해 개인적으로 의미하는 바를 공유
  1. 데이터를 압축해서 즉 요약해서 휴리스틱하게 알고리즘 형태로 구현하는 게 AI 모델
  1. 그만큼 Language에서도 Summarization이 중요하다고 생각한다
  1. LLM도 수십 TB 텍스트 데이터를 수십 GB 파라미터들로 이루어진 모델로 사이즈를 줄인 형태
  1. 하지만 압축하며 중간중간 손실된 정보로 인해 모델만으로는 복잡한 문제해결이 어렵다
  1. 즉 외부정보가 필요한데 Retriever해서 모델에 제공해주는 게 필요한데 전통적인 방식이 Text embedding similarity
  1. ODQA에서 해당 방식은 데이터가 raw text 데이터이고 evidence density가 낮다는 것이 문제
  1. Reader에 제공되는 데이터에서 최대한 noise를 줄이고 evidence density를 높인 데이터를 최대한 많이 줄수록 성능이 향상된다
  1. 여기서 중간 압축과정을 Summarization만을 이용해서 (LLM 프롬프프로만) 진행한다. (Tree 구조로 병합과정 top-k retrieval passages에 대해 )
  1. LLM을 이용한 SOTA QA 의 성능이 맨 위와 같은데 이보다 높일수 있지 않을까?

Summarization is all you need

 
 
 
 
 
 
 
 
 

Recommendations