issues
search
lIms0
/
_
0
stars
0
forks
source link
7, 8 피드백
#3
Open
lIms0
opened
1 year ago
lIms0
commented
1 year ago
국소 최소값 local minimum x > local minima
p.27 수렴점 식 알아보기
p.29, 30 epoch 차이, epoch를 적게 했을 때, 많게 했을 때 차이
p.29 학습률이 0.05인 이유, 학습률을 아주 높게 했을 때는 어떤 변화가 있는지
p.36 기울기 폭발이 있을 때 해결 방법
활설화 함수는 어떤 역할을 하는지, 어떤 모델에서 사용하는지
기울기 폭발은 어떨 때 발생하는지
기울기 소실 발생할 때 환경 두 가지 알아보기(and) 신경망 파트일 때 추가하기!
층이 몇 층이 되면 발생하는지 알아보기
lIms0
commented
1 year ago
수렴점
: 함수의 기울기(도함수)가 0이 되는 지점
주어진 함수: f(x), x를 찾고자 하는 최적화 변수
∇f(x) = 0
∇f(x):는 함수 f(x)의 도함수(기울기), x에 대해 미분한 값
위 식을 만족하는 x가 수렴점이 됨
이를 풀기 위해서는 주로 반복적인 최적화 알고리즘을 사용하게 됨
대표적인 알고리즘으로는 경사하강법(GD), 뉴턴-랩슨(Newton-Raphson) 등이 있음
경사하강법에서 수렴점을 사용하는 예시 코드
에포크 값은 전체 데이터셋을 몇 번 반복하는가
에포크 값을 크게 하면 수렴에 더 많은 시간이 걸리지만, 수렴점에 더 정확하게 도달할 수 있음
지나치게 크게 설정하면 수렴 속도가 느려질 수 있고, 또는 최적의 값에 도달하지 못할 수도 있음
학습률을 높이면 경사하강법에 빠르게 수렴하지만, 수렴점을 지나쳐서 발산할 수 있음
반대로 학습률을 낮게 설정하면 수렴 속도가 느려지지만 수렴점에 안정적으로 도달할 가능성이 높아짐
뉴턴-랩슨에서 수렴점을 사용하는 예시 코드
출력 주기를 10으로 한 이유는 진행 상황을 보기 위해
이터레이션의 횟수가 작을수록 수렴점에 도달하지 못할 수 있고, 더 큰 값으로 설정하면 더 정확한 수렴점에 도달할 수 있음
lIms0
commented
1 year ago
기울기 폭발
주로 딥러닝 모델에서 학습할 때 발생하는 문제
학습 과정에서 기울기가 너무 커져서 파라미터들이 불안정해지는 상황을 의미
학습이 제대로 이루어지지 않아 모델의 성능이 저하되거나 발산하는 원인이 될 수 있음
발생하는 경우
학습률이 너무 큰 경우: 학습률(learning rate)이 너무 크면 기울기가 급격하게 커져서 파라미터들이 크게 변동하고, 결국 수렴하지 못하거나 발산할 수 있음
순환 신경망(RNN)과 같은 모델에서 긴 시퀀스를 처리할 때는 타임 스텝이 길어지면 기울기가 지수적으로 증가하여 폭발할 수 있음
해결 방안
그래디언 클래핑(Gradient Clipping): 기울기 값을 임계값으로 자르는 방법. 기울기 크기를 제한하여 폭발을 막을 수 있음
학습률 스케줄링(Learning Rate Scheduling): 학습률을 학습하는 동안 동적으로 조장하는 방법. 학습이 진행됨에 따라 학습률을 감소키셔서 안정적으로 학습할 수 있도록 함
lIms0
commented
1 year ago
활성화 함수
딥러닝 네트워크에서 사용되는 비선형 함수로, 입력값에 비선형성을 추가하여 네트워크가 복잡한 문제를 해결할 수 있도록 도움
역할
비선형성 추가: 선형 함수로만 구성된 네트워크는 여러 층으로 구성해도 결국 하나의 선형 함수가 되므로, 비선형 함수인 활성화 함수를 사용하여 네트워크에 비선형성을 도입함
미분 가능성: 역전파 알고리즘을 사용하여 네트워크를 학습할 때, 미분 가능한 함수를 사용해야 함. 많은 활성화 함수들이 미분 가능하며, 이를 통해 기울기를 업데이트하면서 학습할 수 있음
데이터를 비선형 영역으로 매핑: 복잡한 데이터의 패턴을 학습하기 위해 활성화 함수는 데이터를 빈선형 영역으로 매핑하여 더 복잡한 관계를 학습할 수 있도록 함
종류
시그모이드(Sigmoid)
하이퍼볼릭 탄젠트(Tanh)
렐루(ReLU)
리키 렐루(Leaky ReLU)
이 중 렐루와 그 변종들이 많이 사용됨
렐루 계열 함수들이 학습 속도가 빠르고 다른 함수들에 비해 더 효과적으로 학습할 수 있기 때문