Binary Tree 로 차례차례 Sigmoid Function 해가며 softmax 전체 계산 피한다 [NLP | TIL] Negative Sampling과 Hierarchical Softmax, Distributed Representation 그리고 n-gramEfficient Estimation of Word Representations in Vector Space 논문을 해석하던 중에 해당 개념들이 나와서 정리하게 되었다. 논문에서 빈번하게 등장하기도 하고 중요한 개념이라 생각된다. 논문에 대한 포스트는 다음 주말 중으로https://velog.io/@xuio/NLP-TIL-Negative-Sampling과-Hierarchical-Softmax-Distributed-Representation-그리고-n-gram