Only the weights of the model are quantized ahead of time, while the activations are quantized on-the-fly during inference. Weights are statically quantized, but activations are dynamically quantized based on their actual runtime values.
딥러닝 Quantization(양자화) 정리
모델의 파라미터를 lower bit로 표현함으로서 계산과 메모리 access 속도를 높이는 경량화 기법보통 32비트 부동소수점 연산을 8비트 정수로 변환하는 방식 사용 \- pytorch, tensorflow의 default data type = fp32Quant
https://velog.io/@jooh95/딥러닝-Quantization양자화-정리


Seonglae Cho