Deeplearning 4

Show, Attend and Tell : Image Captioning에서 Soft Attention, Hard Attention

논문 링크 : https://arxiv.org/pdf/1502.03044.pdf 참조 블로그 링크 : http://sanghyukchun.github.io/93/ Show, Attend and Tell: Neural Image Caption Generation with Visual Attention (ICML2015) - README 주어진 이미지에 대한 설명을 하는 문장, 혹은 캡션을 생성하는 문제를 image caption 문제라고 한다. 이 문제는 여러 가지 문제들이 복합적으로 얽혀있는 문제라고 할 수 있는데, 먼저 이미지가 어떤 것에 대한 이미지인지 판별하기 위하여 object recognition을 정확하게 할 수 있어야한다. 그 다음에는 detect한 object들 사이의 관계를 추론하여 이미..

[논문 읽기] Wasserstein GAN

논문 링크 : https://arxiv.org/pdf/1701.07875.pdf 불러오는 중입니다... 아래 블로그가 정말 알기쉽게 설명이 잘 되어있습니다!! 많이 참고하였고 다른 분들도 참고하시면 좋을거 같습니다ㅎㅎ https://medium.com/@jonathan_hui/gan-wasserstein-gan-wgan-gp-6a1a2aa1b490 1. Introduction Unsupervised Learning(Self-supervised Learning)은 학습 데이터 x에 대한 정답 라벨 y가 존재한 것과는 달리, 데이터 x의 분포 P(x)를 직접 학습하겠다는 것이다. 이를 위해서 P(x)를 parameter θ에 대해 아래와 같이 표현하고, 이를 학습시킬 수 있다. 그러나 P(x)의 식을 직접 ..

논문 리뷰/GAN 2019.05.05

[CS231n] Generative Models (2) - GAN

* 이 글은 Stanford 대학의 CS231n 강의를 듣고 요약한 글입니다. 1. GAN의 network 구조 GAN은 SOTA Generative model이다. 앞서 언급한 PixelRNN/CNN, VAE와 무슨 차이가 있냐면.. PixelCNN에서는 P(x) 식을 Chain Rule을 이용하여 직접 정의하였다. VAE에서는 latent variable z를 이용하여 P(x)를 간접적으로 표현하였고, 이를 계산하기 위해 Lower Bound를 최적화 하였다. GAN에서는? P(x)를 수식으로 정의하려고 하지 않는다. 대신에 게임 이론의 방식을 취하여, implicit하게(수식으로 직접 정의하지 않고) training distribution을 학습하고자 한다. 그럼 어떻게 implicit 하게 tra..

딥러닝/cs231n 2019.04.15

[CS231n] Generative Models (1) - AutoEncoder, Variational AutoEncoder(VAE)

* 이 글은 Stanford 대학의 CS231n 강의를 듣고 요약한 글입니다. 1. AutoEncoder(AE) AutoEncoder는 데이터 생성 모델이 아닌, 학습 데이터에 대해 보다 낮은 차원의 feature representation을 학습하는 것이 목적이다. 구조는 아래 그림과 같다. 즉, input data x 그 자체를 label로 삼아 저차원의 feature z를 학습하겠다는 것이다. 학습에 쓰이는 Encoder와 Decoder로는 Linear + nonlinearlity(sigmoid), fully connected, ReLU CNN 등이 사용된다. 입력 데이터를 있는 그대로 복원해야 하기 때문에 L2 loss function(x와 reconstructed x의 차의 제곱)을 통하여 최적..

딥러닝/cs231n 2019.04.15
1