7/8 ~ 7/21 : 2주차 정리

jwkwak45 commented 5 years ago

7/8 Optimization 방법론

Optimization 방법론의 발전
Gradient Descent Algorithm
- 어떠한 함수의 최소점을 찾는것
- 함수의 공간은 파라미터, 파라미터 갯수가 엄청나게 늘어나면 함수 형태 파악 불가능
- 파라미터의 기울기만을 알고 있다고 가정(코스트 함수를 최소화 하기 위해, 코스트 함수에 대한 기울기)
- Gradient는 1차 미분, Hessian 은 2차 미분 ??
Batch Gradient Descent
- 전체 트레이닝셋을 한번에 고려해서Gradient를 계산한다. (각각 계산해서 평균을 낸 뒤 한번 업데이트, 오래걸림)
Stochastic(확률론적) Gradient Descent
- 한번에 한개씩 계산.
- 랜덤으로 하나를 뽑는데, 그 기대값이 원래 Batch Gradient Descent 와 같기 때문에 Stochastic
Mini-Batch Gradient Descent
- 위 두개의 중간.
- 64~256개의 데이터를 쓰고 번갈아가면서 학습시킴. (GPU 메모리 할당 개수 때문에 주로 2의 n승 단위)
- Rule of thumb (경험적에서 나온 실용적인 방법)
- 미니 배치가 작을수록 시간은 오래걸리지만 성능이 좋다고 함.
Challenges
- 방향은 알지만, 얼마나 가야할지 모른다.
- Learing rate (다음 포인트를 향해 얼마나 가는지) 을 정하고 파라미터를 업데이트 한다.
- Global Minimum 으로 가지 않고 Loal minima 로 갈 수 있는 위험이 있다.
Momentum
- 한쪽 방향으로는 값이 줄어드는데, 다른 방향으로 왔다갔다 할때, 이전의 값에 현재의 값을 더해서 관성이 있는 듯이 표현??
Nesterov Accelerated Gradient
- Gradient를 모멘텀 방향만큼 옮긴 다음 Gradient를 계산한다
- minimal 한 위치를 찾지 못하고 왔다갔다하는 경우를 막기 위해서 주로 쓰인다. (근데 구체적으로 어떻게??)
Adagrad
- 모든 파라미터 마다 Learning rate를 가지도록 하는 것.
- 많이 변했던 파라미터는 조금 변하게 하고, 조금 변한 파라미터는 많이 변하도록 ?
- G를 분모에 둬서 조정
Adadelta
- Adagrad는 G 값이 너무 커져 학습이 안되는 문제가 있다.
- exponential moving average(EMA) 를 취해준다. 감마와 1-감마를 가지고, 지금 들어온 gradientt의 제곱을 계속 업데이트 해준다.
- 실제 Gradient가 변한 양도 체크를 해준다.
- 최근의 변화를 고려하여 조정하는 방법
- Learning Rate 가 없다.
RMSprop
- Adadelta에 Global 한 Learning Rate 이 있는 버전.
- EMA 를 분모에 놓고, Learning Rate 를 분자에 둔다.
Adam
- Learning Rate 과 모멘텀을 합친것.
- 모멘텀을 m, gradient의 변화량을 v 로 둬서 구한다.
- global Learning Rate 이 분자, v와 입실론이 분모 에 m 과 보정하는 계산을 곱한다.
- 입실론은 0 으로 나눴을때 생기는 문제와, 초창기 v의 변화가 너무 커서 불안정해지는 것을(?) 막는다. 입실론의 값이 적당히 커야 학습이 잘된다고 함.
- 주로 사용된다고 한다.
Adaptive Learing Method를 쓰는 것이 좋다.
Shuffling : 학습데이터는 매 Epoch 마다 섞어주는 것이 좋다.
Curriculum Learning : 쉬운 모델부터 학습
Batch Normalization : 매우 매우 중요
Early stopping
Gradient Noise
Learning rate : 좋은 Learning Rate의 모양이 중요하다. 너무 Linear 한 모양도 문제고 너무 급격해도 문제다. 바꿔가면서 학습을 시도하는게 좋다.

jwkwak45 commented 5 years ago

7/9 Restricted Boltzmann Machine

딥러닝이 다시 살아날 수 있게한 방법 중 하나.
Energy based model
- 일반적인 SL 처럼 입력이 있을 때 어떤 출력을 내보내는 함수를 찾는것과 다른, 대표적인 un-supervised Learning. 이미지만 있는 상태에서 어떻게 representation을 찾을지.
- 입력 x이 있을 확률은 에너지에 반비례. 에너지를 학습하는 것.
- 이 확률의 분포는 볼츠만 분포로 불린다. (물리로 치면, 어떤 기체가 어떤 공간에 특정 온도로 있을 확률은 그 온도에 반비례 (온도가 높으면 기체가 팽창하기 때문에))
Restricted Boltzmann Machine
- RBM은 일반 Boltzmann Machine 과 다르게 모든 것이 연결이 된 것이 아니라, hidden 과 visible 사이에만 연결이 되어있다. 뉴럴 네트워크와 같다.
- 볼츠만 머신은 기본적으로 각각의 원소들이 0 또는 1을 가지고 있다고 가정.
- 뉴럴 넷을 학습 시킬때 pre-training으로 활용한다.
Restricted Boltzmann Machine 의 학습
- Energy 를 정의하면 끝. 그를 위해서 Energy 가 가지는 형태를 정해놓는다.
- Energy 가 정해졌으면 확률을 구할 수 있다.
- 그 확률을 구할때 문제가 되는건 normalizing constant (모든 가능한 hidden 과 visible 노드에 대해서 (0인지 1인지) expectation을 취하는 것) --> 너무 많은 경우의 수가 있다.
- Conditional distributions : Joint Distribution P(x,y) 를 통해 --> P(x|y) = P(x,y) / 각 x에 대한(시그마 x) P(x,y)
- 결국 목적은 어떠한 visible이 주어졌을때 그것을 최대로 하는 파라미터를 찾는 것.
- Gradient를 구한다....(다시 확인??)
- 결국은 어떠한 visible 이 주어졌을때, hidden을 샘플링하고, 그렇게 해서 생긴 쌍을 이용용해 positive phase를 계산하고 그렇게 샘플된 hidden에서 visible을 다시 샘플링해 또 이 쌍으로 negative phase 를 계산해서 phase 두개가 한번에 계산되면 Gradient 하나를 얻을 수 있다. 이게 Contrastive Divergence.
Deep Belief Network
- RBM을 쌓는것. 요새는 잘 쓰지 않는 다고 한다.

질문 1. hidden 과 visible 등등.. --> visible :input?? 질문 2. Joint Distribution P(x,y) 를 안다?? 질문 3. RBM 의 수식을 설명한 글...

논외. 이번거는 확실히 다른곳에서도 찾아봐야겠네요.

jwkwak45 commented 5 years ago

7/10 [실습] Multilayer Perceptron(MLP) 로 숫자 분류기 구현하기

fully connected layer
784 ----> 10 으로 줄이기 위해 784x512, 512x128, 128x10 행렬을 곱하고 각 레이어에 activation으로 non-linearty 를 부여????
주의 할 점은 weight , bias 를 만들때 딕셔너리 구조를 만들면 좋다
텐서플로우는 액티베이션 함수 바꾸는 것도 쉽다.

jwkwak45 commented 5 years ago

7/11 [실습] Custom dataset 만들어보기

이번 강의는 파이썬으로 데이터 셋을 늘리는 것에 대한 강의.
코드는 참조로 생각하면 될듯

jwkwak45 commented 5 years ago

7/18 이미지의 각 픽셀을 분류하는 Semantic Segmentation

Semantic Segmentation
- 이미지의 픽셀이 무엇을 뜻하는지 분류
- 자율주행에 주로 활용
Fully Convolutional Networks(FCN) for Semantic Segmentation
- 딥러닝을 이용한 Semantic Segmentation 의 시초
- FCN : Fully Connected 가 없이 모든 네트워크가 컨볼루션
- Fully Connected 가 없어, 인풋 사이즈가 커지면 비례해서 아웃풋 사이즈도 커진다.
- Fully Connected Layer 로 만든걸 90도로 돌려(1줄로 만들어서??) 1x1 x(디멘션)의 convolution layer로 변경 (Convolutionalization 이라고도 함)
- 장점은, 입력 이미지가 커졌을 때 비례해서?? 그 공간의정보를 가지는???(일종의 히트맵 생성?)
- fully connected layer = 1x1 convolution
- 그러나 서브샘플링에 따라 공간의 정보가 줄어드는데, 그것을 키워야 한다.
- 그것이 Deconvolution.
- 어느 숫자에 컨볼루션 필터만큼의 숫자를 곱한다. ...? 컨볼루션의 반대연산
- Stride 에 따라 오버래핑 될 수 있다.
- skip connection 으로 너무 줄어들기 전의 정보까지 이용할 수 있다.
- 이것으로 딥러닝이 상당히 발전했다.
Semantic Image Segmentation with deep convolutional Nets and Fully connected CRFs
- signal downsampling : 서브 샘플링 때문에 정보가 줄어있는것 -> Atrous algorithm
- spatial insensitivity : spatial 정보가 줄어 윤곽선을 잘 인식하지 못한다. -> Conditional random field
- Atrous convolution : 중간에 0 을 집어넣어 high resolution의 더 dense한 컨볼루션을 구현?? 인풋 stride 보다 아웃풋 stride 가 더 크게하도록...??
- Conditional random field : 인접한 픽셀은 비슷한 정보를 가질 것이라는 생각(pairwise term)으로 라벨을 강화
Learning Deconvolution Network for Semantic Segmentation
- 대부분의 경우 네트워크에 따라 리셉티브 필터의 크기가 정해져있어, 큰물체와 작은 물체에 따라 이것이 너무 작거나 클 때가 있다.
- 1x1 까지 줄였다가 다시 복구
- Unpooling 이 핵심
- 언풀링은 쉽지않다. 어떠한 공간에 값을 넣어야하는지 알아야하기 때문. 그렇기에 여기서는 switch variable을 저장한다.
- 그 때문에 네트워크가 항상 좌우대칭이어야 한다.
- Batch Normalization, Two stage training(가운데에 있는 쉬운 이미지부터 학습 시키고 다음에 복잡한 이미지를 학습 시키는 것), Ensemble model (이미지 안에서의 영역을 나눠 다시 합치는 것.)
DeepLab : Semantic Image Segmentation with Deep Convolution Nets, Atrous Convolution, and Fully Connected CRFs
- Reduced feature resolution -> Atrous convolution
- Existence of objects at multiple scales(물체 크기를 인식) -> Atrous spatial pyramid pooling(ASPP)
- Reduced localization accuracy(윤곽선) -> Conditional random fields(CRF)
- ASPP : 이미지 안에서 크기에 따라 인식하고 싶다. 1x1, 3x3, 5x5 등등으로. 그러나 이렇게 리셉티브 필드 크기를 키우려면 파라미터를 많이 써야한다.
- 리셉티브 필터 중간에 0을 집어 넣으면서 파라미터는 유지하고 리셉티브 필터 크기를 키운다. (띄엄띄엄 봐도 인식하는데에는 괜찮다는 생각에 기반)
- 인셉션 모듈과도 비슷한 느낌이지만 파라미터는 같고 rate(넣는 0) 만 다르게 한다.
Full-resolution residual nets
- 고해상도 이미지에 잘 어울리게...
U-Net
- 앞단의 정보를 뒤에 붙였다가 늘릴때 다시 사용? 채널이 늘어나 파라미터가 많이 사용되는 단점이 있다.
Deep contextual networks
- Unet보다 훨씬 간단한 구조로 메모리를 적게 사용한다.
Fusion Net
- 여러 테크닉을 합친 방법, GPU 메모리를 엄청 사용한다.
Pyramid Scene parsing Net
- pre-trained CNN을 한번 돌려서 feature map을 얻고 각각 컨볼루션을 해서 다시 합친다??ㅍ파라미터도 많이 사용하지 않는다고 한다.

YunjeongPARK1 commented 5 years ago

<Optimization 방법론>

-학습시킬 때 사용

-Gradient discent optimizer를 항상 가정 : 가중치가 x축인 공간에 있는 함수의 최소값을 구하는 것 : 몇억 차원의 공간이기 때문에 함수 모양을 알 수가 없음 -> 기울기를 가지고 구하게 됨 : 기울기는 cost function의 기울기 ( cost function을 최소로 만드는 것이기 때문에) : 기울기 -> 1차 미분

-세 가지 variant gradient descend (1)Batch gradient descend : 전체 데이터를 한 번에 고려. 전체 데이터의 gradient를 각각 계산. 평균 냄. 한 번 업데이트 (2)mini-batch gradient descend : 중간. 제일 좋음. 일반적으로 얘를 사용. 2^n 단위의 일정 데이터의 기울기를 계산.(GPU 때문). batch 사이즈가 작을 수록 성능이 좋음. (3)stochastic gradient descend : 한번에 한 개. 그래서 떨림현상 있음. 랜덤한 한 개를 고르고 얘가 batch를 대표한다고 가정하기 때문에 이름에 stochastic이 있음.

-Challenges (1)방향밖에 모르기 때문에 크기인 learning rate를 정하기 어렵다. -> learning rate schedule (2)local minima의 문제

1.Momentum : 한쪽 방향으로는 값이 계속 커지는데 다른 방향으로는 줄어들면서 진동할 때. : 이전에 있던 것을 현재 있는 것에 더함으로써 해결

2.Nesterov accelerated gradient / Nesterov momentum update : gradient를 모멘텀만큼 옮기고 나서 그래디언트를 계산. : 1번의 로컬 미니멈에서 진동하는 문제를 해결함.

3.Adagrad : 모든 파라미터마다 학습율을 바꾸어 주는 것 : 많이 변했던 파라미터는 조금 변하게 하고 조금 변했던 파라미터는 많이 변하게 하는 것 : (수식 이해 필요) : 치명적인 단점 - G가 계속 커짐 -> 학습률이 줄어들어 학습이 안됨.

4.Adadelta : Adagrad와 같은 맥락. 보완한다. : 지금 들어온 기울기의 제곱을 더해준다. : (수식 이해 필요) : 학습율이 없다

5.RMSprop : Adadelta와 비슷하며 학습율이 있다. : (수식 이해 필요)

6.Adam : learning rate + momentum : 보통 얘를 쓰면 됨

*이 외 유용한 팁들 -shuffling : 학습데이터를 매 epoch마다 섞기 -curriculum learning : 난이도를 적절히 -batch normalization -early stopping -gradient noise -learning rate

jwkwak45 commented 5 years ago

저번에 말했던 책들 둘 다 빌려서 내용 확인해봤는데, 처음배우는 딥러닝 수학 책이 저희 목표에 훨씬 맞는 책인것 같아요! 예상대로 수학의 아름다움 책은 교양서에 가깝더라구요.

jwkwak45 commented 5 years ago

7/19 [실습] Convolutional Neural Network(CNN)으로 숫자 분류기 구현하기

Saver 를 통해 저장하고 불러오기

jwkwak45 commented 5 years ago

7/19 [실습] Custom dataset을 이용한 분류기 구현하기

data의 불균형 때문에 생기는 문제

YunjeongPARK1 commented 5 years ago

저번에 말했던 책들 둘 다 빌려서 내용 확인해봤는데, 처음배우는 딥러닝 수학 책이 저희 목표에 훨씬 맞는 책인것 같아요! 예상대로 수학의 아름다움 책은 교양서에 가깝더라구요.

: 딥러닝 수학책 같이 읽어볼까요?

jwkwak45 commented 5 years ago

저번에 말했던 책들 둘 다 빌려서 내용 확인해봤는데, 처음배우는 딥러닝 수학 책이 저희 목표에 훨씬 맞는 책인것 같아요! 예상대로 수학의 아름다움 책은 교양서에 가깝더라구요.

: 딥러닝 수학책 같이 읽어볼까요?

네 좋아요!

YunjeongPARK1 commented 5 years ago

저번에 말했던 책들 둘 다 빌려서 내용 확인해봤는데, 처음배우는 딥러닝 수학 책이 저희 목표에 훨씬 맞는 책인것 같아요! 예상대로 수학의 아름다움 책은 교양서에 가깝더라구요.

: 딥러닝 수학책 같이 읽어볼까요?

네 좋아요!

저도 오늘 학교 도서관에서 빌렸어요! 이것도 범위 정해서 같이 정리해서 읽고 발제하면 좋을 것 같아요!

YunjeongPARK1 commented 5 years ago

Restricted Boltzmann Machine

-RBM : 딥러닝이 다시 살아나게 함 -Energy-based models -unsupervised learning이기 때문에 input만 주어진다. -x : input -p(x) : E(x)에 반비례 -E(x)를 찾고 학습하는 것이 목표

-Boltzmann machine :General Boltzmann machine : hidden layer끼리 visible layer끼리 그 안에서도 연결이 있다. :Restricted Boltzmann machine : 그 안에서는 연결이 없다. -> neural net과 같다 -> pre-training에 활용. 초깃값을 잡는다. :각 노드들은 0또는 1을 확률적으로 가지고 있다.

-E(v,h l 쎄타) : 에너지가 들어가는 꼴을 정해놓음. 머신이 돌아가면서 w,b,a를 구하는 것. -P(v,h l 쎄타 ) : 에너지가 정해지면 확률을 구할 수 있다. 확률을 구할 때 normalizing constant에서 서메이션을 하는 횟수가 너무 커지기 때문에 문제가 된다. -우리의 목적은 visible이 주어졌을 때 parameter(w,b,a)를 구하는 것. -positive phase : 어떠한 visible이 주어졌을 때 모든 가능한 hidden으로 서메이션을 하게 됨.

-CD(Contrastive Divergence) -positive phase : 주어진 visible과 그로 인해 만들어진 hidden으로 계산 -negative phase : hidden으로부터 visible을 다시 만들고 그 둘로 계산

-Deep Belief Network (DBN) : RBM을 쌓는 것

YunjeongPARK1 commented 5 years ago

이미지의 각 픽셀을 분류하는 semantic segmentation

-이미지의 픽셀 별로 분류를 하는 것 -앞에서는 이미지 전체에 대한 분류를 했는데 이걸 모든 픽셀에 대해 하는 것 -어디에 사용? : 자율주행에 많이 사용

1.Fully Convolutional Networks for semantic segmentation -FCN (Fully convolutional network) :뒷단의 fully connected layer가 없고 모든 네트워크가 convolution으로만 이루어져 있음 -특징 : (1) input size에 dependent하지 않다

jwkwak45 commented 5 years ago

7/22 [실습] 99% 정확도를 넘기는 정교한 CNN 구현하기

slim
Data Augumentation, 앙상블

jwkwak45 / AIstudy.github.io

7/8 ~ 7/21 : 2주차 정리 #6