연구노트 Model Qunatization 230714

inference only로 tulu quantization

tulu inference 시 memory mangement 오류

quantize lamini models (gpt2, gpt neo)

quantize openchat

inference kcksrkwl dhfb

3b짜리 시중 모델 찾아서 해보자

quantize models--TheBloke--WizardLM-7B-uncensored-GPTQ

angryface inferece하고 qa 함수에서 모델 gpu memory에서 안빠지는 문제

del model 등 아래 참고해봐도 안빠짐

찾아서 llm streamlit내내 공유하는 방식 사용

근데 공유된 모델당 inferece도중 message 초반 안보이는 이슈 발생 (무시하기로 하나라서)

근데 대화 계속하다보면 answer로 user: 등 프롬프트 들어가는 이슈 레딧 물어봄

LitGPT 돌려봄

GPT Researcher 3.11 안되는 오류 이슈 답글 달았다


AttributeError: 'Llama Attention' object has no attribute 'qkv proj'

일반모델은 괜춘함

safetensor 만 따로 저장 하는 방식으로 바꾸었더니 잘 작동한다

성능향상이 막 체감되지는 않는다

성능은 streamlit때보다 cli로 할때 훨씬 빠르다 streamlit hash 된 llm등 문제가 복잡해져서 잘 안쓰이는듯

cli로 할때 첫 inference보다 갈수록 점점 느려진다. context size따라서 많이 느려지는듯. 해당부분 복잡도 개선이 프로덕트에 중요해보인다

reddit 질문한거 stop policy class이용해서 bos token으로 잘 해결했다

일단 angryface는 당분간 완료