inference only로 tulu quantization
tulu inference 시 memory mangement 오류
quantize lamini models (gpt2, gpt neo)
quantize openchat
inference kcksrkwl dhfb
3b짜리 시중 모델 찾아서 해보자
quantize models--TheBloke--WizardLM-7B-uncensored-GPTQ
angryface inferece하고 qa 함수에서 모델 gpu memory에서 안빠지는 문제
del model 등 아래 참고해봐도 안빠짐
How to free GPU memory in PyTorch
I have a list of sentences I'm trying to calculate perplexity for, using several models using this code:
from transformers import AutoModelForMaskedLM, AutoTokenizer
import torch
import numpy as np
https://stackoverflow.com/questions/70508960/how-to-free-gpu-memory-in-pytorch
찾아서 llm streamlit내내 공유하는 방식 사용
근데 공유된 모델당 inferece도중 message 초반 안보이는 이슈 발생 (무시하기로 하나라서)
근데 대화 계속하다보면 answer로 user: 등 프롬프트 들어가는 이슈 레딧 물어봄
phree_radical's comment from discussion "Trouble while using wizardLM-7b-uncensored prompt engineering"
https://www.reddit.com/r/LocalLLaMA/comments/1510b9z/comment/js67owh/?context=3
LitGPT 돌려봄
GPT Researcher 3.11 안되는 오류 이슈 답글 달았다
Safe tensor model은 작동할때 생기는 오류
일반모델은 괜춘함
safetensor 만 따로 저장 하는 방식으로 바꾸었더니 잘 작동한다
성능향상이 막 체감되지는 않는다
성능은 streamlit때보다 cli로 할때 훨씬 빠르다 streamlit hash 된 llm등 문제가 복잡해져서 잘 안쓰이는듯
cli로 할때 첫 inference보다 갈수록 점점 느려진다. context size따라서 많이 느려지는듯. 해당부분 복잡도 개선이 프로덕트에 중요해보인다
reddit 질문한거 stop policy class이용해서 bos token으로 잘 해결했다
일단 angryface는 당분간 완료
Seonglae Cho