Symmetric KL Divergence (MI)Correlation과 달리 상호 정보는 선형 관계뿐만 아니라 비선형 관계도 포착하기 때문에, 두 변수 간에 비선형 관계가 존재할 경우 상관관계는 낮더라도 상호 정보는 높을 수 있다Same latent state일 필요도 없다I(x;y)=DKL(p(x,y)∣∣p(x)p(y))=H(p(x))−H(p(y∣x))=H(p(y))−H(p(x∣y))I(x;y) = D_{KL} (p(x,y) || p(x)p(y)) \newline = H(p(x)) - H(p(y | x)) \newline = H(p(y)) - H(p(x | y))I(x;y)=DKL(p(x,y)∣∣p(x)p(y))=H(p(x))−H(p(y∣x))=H(p(y))−H(p(x∣y))Mutual informationsPointwise mutual information