Summarizer
google/pegasus-x-large
너무 짧게 요약해서 정보 다 날아감 (요약문에 정답이 포함되어 있지 않음)
확실히 evidence 포함여부가 중요할듯
leg-large-book-summary(longformer)
inference느리고 오래된 모델이지만 summarizer없이 틀리는 문제 맞춤
길게 요약나와서 좋다
근데 inference 너무 오래걸려서 흠 tgi 서버 이용해도 속도가 나올까 싶다


근데 몇개만 그랬고 나머지 못맞추는 거는 비슷하게 못맞춘다
유의미한지는 dataset 전체 돌려봐야 알듯
흥미로운 부분은 question 같이 넣어주면 title 역할을 해서 잘찾을 거라 생각했는데 그렇게 훈련된 모델이 아니라 혼란스러운지 더못함
long-t5-book-summary
빠르긴 한데 longformer보다 안좋은
- pegasus-x-large-book
결론은 훈련전 일반 summarization 모델로는 완전히 평가는 어렵지만 evaluation 지표가 뒷받침되면 성능향상을 말할수 있을듯. 예시 몇개로는 판단 어렵지만 해볼만하다는 결론
BookSum-based Summarizers - a pszemraj Collection
general purpose text2text summarization models from finetuning with the BookSum dataset
https://huggingface.co/collections/pszemraj/booksum-based-summarizers-652e9ae95ddbaa5254287164
위 collection 포함 book summary 가 좋았다
근데 못맞추는 질문 gpt-3.5한테 물어도 잘 못맞춘다… retriever로 정보주고 reader로 사용할만할듯?
Todo
text generation inference server 로 최적화
dataset 전체 validation pipeline
Seonglae Cho