Loading views...

연구노트 Model Qunatization 230714

Date
Date
2023 Jul 15 0:0 → 2023 Jul 17 0:0
Created by
Created by
Seonglae ChoSeonglae Cho
Created time
Created time
2023 Jul 14 13:40
Last edited by
Last edited by
Seonglae ChoSeonglae Cho
Last edited time
Last edited time
2023 Jul 17 15:32
Refs
Refs
inference only로 tulu quantization
tulu inference 시 memory mangement 오류
quantize lamini models (gpt2, gpt neo)
quantize openchat
inference kcksrkwl dhfb
3b짜리 시중 모델 찾아서 해보자
quantize models--TheBloke--WizardLM-7B-uncensored-GPTQ
 
 
angryface inferece하고 qa 함수에서 모델 gpu memory에서 안빠지는 문제
del model 등 아래 참고해봐도 안빠짐
How to free GPU memory in PyTorch
I have a list of sentences I'm trying to calculate perplexity for, using several models using this code: from transformers import AutoModelForMaskedLM, AutoTokenizer import torch import numpy as np
How to free GPU memory in PyTorch
찾아서 llm streamlit내내 공유하는 방식 사용
근데 공유된 모델당 inferece도중 message 초반 안보이는 이슈 발생 (무시하기로 하나라서)
근데 대화 계속하다보면 answer로 user: 등 프롬프트 들어가는 이슈 레딧 물어봄
phree_radical's comment from discussion "Trouble while using wizardLM-7b-uncensored prompt engineering"
 
LitGPT
돌려봄
GPT Researcher
3.11 안되는 오류 이슈 답글 달았다
 
 

Safe tensor model은 작동할때 생기는 오류

일반모델은 괜춘함
 
safetensor 만 따로 저장 하는 방식으로 바꾸었더니 잘 작동한다
성능향상이 막 체감되지는 않는다
성능은 streamlit때보다 cli로 할때 훨씬 빠르다 streamlit hash 된 llm등 문제가 복잡해져서 잘 안쓰이는듯
cli로 할때 첫 inference보다 갈수록 점점 느려진다. context size따라서 많이 느려지는듯. 해당부분 복잡도 개선이 프로덕트에 중요해보인다
reddit 질문한거 stop policy class이용해서 bos token으로 잘 해결했다
일단 angryface는 당분간 완료
 
 
 
 
 
 
 

Recommendations