does this method works for not only simple questions or also works well for complex tasks
가설
만 가지고 계속 summarize recursive, exponential 반복하면 성능을 context 내에서 최대한으로 올릴 수 있다
[diagram required]

- 일단 제안에 앞서 AI 자체에 대해 개인적으로 의미하는 바를 공유
- 데이터를 압축해서 즉 요약해서 휴리스틱하게 알고리즘 형태로 구현하는 게 AI 모델
- 그만큼 Language에서도 Summarization이 중요하다고 생각한다
- LLM도 수십 TB 텍스트 데이터를 수십 GB 파라미터들로 이루어진 모델로 사이즈를 줄인 형태
- 하지만 압축하며 중간중간 손실된 정보로 인해 모델만으로는 복잡한 문제해결이 어렵다
- 즉 외부정보가 필요한데 Retriever해서 모델에 제공해주는 게 필요한데 전통적인 방식이 Text embedding similarity
- ODQA에서 해당 방식은 데이터가 raw text 데이터이고 evidence density가 낮다는 것이 문제
- Reader에 제공되는 데이터에서 최대한 noise를 줄이고 evidence density를 높인 데이터를 최대한 많이 줄수록 성능이 향상된다
- 여기서 중간 압축과정을 Summarization만을 이용해서 (LLM 프롬프프로만) 진행한다. (Tree 구조로 병합과정 top-k retrieval passages에 대해 )
- LLM을 이용한 SOTA QA 의 성능이 맨 위와 같은데 이보다 높일수 있지 않을까?
Seonglae Cho