ReSRer Future works

Creator

Creator

Seonglae Cho

Created

Created

2023 Dec 14 6:42

Editor

Editor

Seonglae Cho

Edited

Edited

2024 Jan 27 6:57

Refs

Refs

does this method works for not only simple questions or also works well for complex tasks

가설

만 가지고 계속 summarize recursive, exponential 반복하면 성능을 context 내에서 최대한으로 올릴 수 있다

[diagram required]

notion image

일단 제안에 앞서 AI 자체에 대해 개인적으로 의미하는 바를 공유

데이터를 압축해서 즉 요약해서 휴리스틱하게 알고리즘 형태로 구현하는 게 AI 모델

그만큼 Language에서도 Summarization이 중요하다고 생각한다

LLM도 수십 TB 텍스트 데이터를 수십 GB 파라미터들로 이루어진 모델로 사이즈를 줄인 형태

하지만 압축하며 중간중간 손실된 정보로 인해 모델만으로는 복잡한 문제해결이 어렵다

즉 외부정보가 필요한데 Retriever해서 모델에 제공해주는 게 필요한데 전통적인 방식이 Text embedding similarity

ODQA에서 해당 방식은 데이터가 raw text 데이터이고 evidence density가 낮다는 것이 문제

Reader에 제공되는 데이터에서 최대한 noise를 줄이고 evidence density를 높인 데이터를 최대한 많이 줄수록 성능이 향상된다

여기서 중간 압축과정을 Summarization만을 이용해서 (LLM 프롬프프로만) 진행한다. (Tree 구조로 병합과정 top-k retrieval passages에 대해 )

LLM을 이용한 SOTA QA 의 성능이 맨 위와 같은데 이보다 높일수 있지 않을까?

Summarization is all you need

Recommendations

//////