모끼의 딥러닝 공부

Optimization + MCMC methods: Langevin Dynamics, Langevin MCMC

아래 references의 강의 및 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____ 1. Optimization + MCMC 결합 이유 그림과 같이 target distribution P(x), MCMC에서 sample proposal을 생성하는 간단한 gaussian Q(x'|x)가 있다. (MCMC 설명: 이전 포스팅 참조) 이 때 Q(x'|x)가 gaussian이므로 어떤 방향으로든지 이동할 확률이 같아 결과적으로 랜덤하게 이동하게 되는데, 이를 Random Walk이라고 한다. 물론 잘못된 sample이 뽑힌 경우 accept rate를 조절하여 해결할 수 있지만, 수렴 속도가 매우 느려지고 오랜 기..

Courses/Probabilistic Graphical Model 2025.04.09

Reparameterization Trick (VAE, Policy Gradient)

아래 references의 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____ 1. Reparameterization Trick모델을 학습시킬 때 주어진 데이터셋이 아닌, parameterized된 모델로부터 data를 sampling해서 학습하는 경우가 있다: 이런 경우 그냥 pθ(x)에서 데이터를 샘플링해서 쓰면 되나?? 라는 생각이 들겠지만 gradient를 구해보면 문제가 생긴 것을 알 수 있다. 위 식과 같이 gradient를 구해보면, 오른쪽 항의 경우 pθ(x)에 대한 expectation으로 정리가 되지만, 왼쪽 항의 경우는 pθ(x)에 대한 expectation으로 정리되지 않는다. gra..

Courses/ML(PRML,cs229) 2024.09.26

[4-2] Model Inference: Variational Inference (+connection to VAE, RL)

아래 references의 강의 및 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____1. Why Variational Inference?앞서 Sampling Methods 포스팅에서 언급했듯이, 대부분의 inference problem은 intractable하다. Inference problem이란, 구하고자 하는 distribution p(x)가 주어졌을 때 어떤 statistics를 계산하는 것이다. 예시로는 다음과 같은 경우가 있다: 대부분의 경우 첫번째와 같이 p(x)만을 남기기 위해 다른 random variable에 대해 marginalize하거나, 두번째와 같이 posterior를 구하기 위해 ..

Courses/Probabilistic Graphical Model 2024.09.24

[4-1] Model Inference: Sampling Methods(MCMC, Gibbs sampling)

아래 references의 강의 및 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____ 만약 왼쪽 그림과 같은 변수들 간의 관계가 주어지고 분포 p(x)를 inference해야 한다면, 먼저 joint probability p(x, y, z) = p(x|y,z) p(z|y) p(y)를 계산한 뒤 y, z에 대해 marginalize하는 방식을 사용한다. 이 때 각각의 conditional probability를 모두 구할 수 있고 y,z에 대한 marginalization(적분)을 연산할 수 있다면 exact inference가 가능하다. 주로 p(x)가 gaussian과 같이 연산 가능한 형태를 가지고 있다고..

Courses/Probabilistic Graphical Model 2024.09.23

[3-2] Model Learning: EM algorithm

아래 references의 강의 및 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____ 지난번 포스팅 PGM learning 3-1편 에서는 fully-observed graphical model일 때의 대표적인 learning 방식인 maximum likelihood estimation에 대해서 살펴보았다. 이번 포스팅에서는 paritally-observed GM(VAE와 같이 hidden variable을 사용하는 경우)에서의 learning 방식인 EM algorithm에 대해 살펴보려고 한다! 1. Parameter learning for partially observed GM1.1 Why latent..

Courses/Probabilistic Graphical Model 2024.09.16

forward KL, reverse KL, cross-entropy

이번 포스팅에서는 loss function으로 많이 사용되는 KL divergence 및 cross-entropy에 대해 정리해 보려고 합니다! 1. forward KLKL divergence는 확률 분포 간 거리를 재는 척도로 data distribution p(x)와 model distribution q(x) 간의 거리를 잴 수 있기 때문에 loss function으로 많이 사용한다. KL divergence는 확률 분포를 대입하는 순서에 따라 값이 달라지는데, 먼저 forward KL 수식은 다음과 같다: 위 수식에서는 알아보기 쉽도록 data distribution p(x)=p^(x)로, model distribution q(x)=pθ(x)로 표기했다. data distribution은 실제 ..

Courses/ML(PRML,cs229) 2024.09.16

[3-1] Model Learning: Maximum likelihood estimation (MLE)

아래 references의 강의 및 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____ 이번 및 다음 포스팅에서는 fully-observed graphical model일 때와 partially-observed graphical model일 때의 learning방법에 대해 살펴보려고 한다. fully-observed GM의 경우 일반적으로 우리가 사용하는 classification model과 유사하게 생각하면 되는데, input random variable x1, ..., xn을 모두 관측할 수 있는 경우이다. paritally-observed GM의 경우 VAE와 같이 hidden variable을 사용하..

Courses/Probabilistic Graphical Model 2024.09.16

Exponential Family

[References]: CS229 4강을 듣고 정리한 내용입니다~https://www.youtube.com/playlist?list=PLoROMvodv4rMiGQp3WXShtMGgzqpfVfbU Stanford CS229: Machine Learning Full Course taught by Andrew Ng | Autumn 2018Led by Andrew Ng, this course provides a broad introduction to machine learning and statistical pattern recognition. Topics include: supervised learning (gen...www.youtube.com 일부 내용은 위 probabilistic graphical m..

Courses/ML(PRML,cs229) 2024.09.15

Probability Distributions

이번 포스팅에서는 가장 기본적이지만 놓치기 쉬운 probability distribution에 대해 간단히 정리해봤습니다! 각 distribution에서의 pdf식 및 MLE로 optimize했을 때 얻는 결과값들을 정리하고, 마지막으로는 각 distribution의 conjugate prior에 대해 정리해봤습니다. 맨 아래 references 블로그에서 PRML책에 대해 정리해놓았는데, 대부분 이 내용 및 PRML 책을 참조했습니다. 저도 공부하면서 정리한 내용이라 부족한 점이 있다면 댓글로 달아주신다면 감사하겠습니다~ :) 목차:Discrete variablesBernoulli distributionMultinomial distributionContinuous variablesUni-variate..

Courses/ML(PRML,cs229) 2024.09.15

[2] PGM Representations: definition of p(x) by converting energy into probability

아래 references의 강의 및 자료들을 공부하고 짧게 정리한 내용입니다! 저도 공부하면서 정리한 내용이라 틀린 것이 있다면 언제든 댓글 달아주신다면 감사하겠습니다~ :D____ 앞서 PGM 포스팅 1편에서는 probabilistic graphical model의 overview 및 application에 대해 살펴보았다. 이번 포스팅에서는 probabilistic graphical model에서 multivariate distribution p(x) = p(x1, x2, ..., xn)을 어떻게 정의할 것인지 살펴보려고 한다. PGM에서는 크게 두 가지 경우를 구분하여 probability distribution을 modeling한다:graph에 방향성이 없을 때 (undirected GM): ..

Courses/Probabilistic Graphical Model 2024.09.12

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

모끼의 딥러닝 공부

전체 글 20

티스토리툴바