이번 포스팅에서는 loss function으로 많이 사용되는 KL divergence 및 cross-entropy에 대해 정리해 보려고 합니다! 1. forward KLKL divergence는 확률 분포 간 거리를 재는 척도로 data distribution p(x)와 model distribution q(x) 간의 거리를 잴 수 있기 때문에 loss function으로 많이 사용한다. KL divergence는 확률 분포를 대입하는 순서에 따라 값이 달라지는데, 먼저 forward KL 수식은 다음과 같다: 위 수식에서는 알아보기 쉽도록 data distribution p(x)=p^(x)로, model distribution q(x)=pθ(x)로 표기했다. data distribution은 실제 ..