RandomnessTemperature is only applied to output logit softmaxP(xi)=exp(zi/T)∑jexp(zj/T)P(x_i) = \frac{\exp(z_i / T)}{\sum_j \exp(z_j / T)}P(xi)=∑jexp(zj/T)exp(zi/T)When T=0, it selects the token with highest probability (deterministic, greedy decoding)When T approaches infinity, probability distribution becomes uniform, increasing randomnessll Why should we use Temperature in softmax?I'm recently working on CNN and I want to know what is the function of temperature in softmax formula? and why should we use high temperatures to see a softer norm in probability distribution?Softmaxhttps://stackoverflow.com/questions/58764619/why-should-we-use-temperature-in-softmax/63471046#63471046Transformer로 텍스트를 생성하는 다섯 가지 전략Hugging face에서 정리한 자연어 생성 디코딩 전략 포스팅을 번역 & 정리한 포스트입니다 ❤️ Source - hugging face ❤️ 더 좋은 디코딩 전략으로 자연어 생성 모델의 성능 높이기 원본 포스팅: https://huggingface.co/blog/how-to-generate?fbclid=IwAR19kbEiW_sF19TeSr4BE4jQZSIqz0GzOFD2013fIGEH32DReW9pAFq6vDM 포스팅에서 소개하는 전략은 아래와 같이 표현할 수 있는 모든 auto-regressive 언어 모델에 적용 가능하다. 또한, 다섯 가지 디코딩 전략은 hugging face의 transformer 라이브러리에서 함수로 호출해 사용할 수 있다. import tensorflow as tf fro..https://littlefoxdiary.tistory.com/46