파이썬 딥러닝 ai 스쿨 기초/lecture02

lecture02 1교시 개념정리

junny1997 2021. 3. 15. 17:05

Loss Function (Error Function)

  • Mean squared error (평균 제곱 오차)

$E=\frac{1}{2}\sum_{k}^{}(y_k-t_k)^2$

ex

Cat: 0.1  $(0.1 - 1)^2$

Dog: 0.9  $(0.9 - 0)^2$

  • Cross entropy error (교차 엔트로피 오차, 정답일때의 출력이 전체값을 결정)

$E=-\sum_{k}^{}t_k\log y_k$

ex

Cat: 0.1  $1*\log 0.1$

Dog: 0.9  $0*\log 0.9$

 

Back-Propagation(역오차전파)

출처 AI School

 

출처 AI School

Gradient decent

  • $w_{1}^{t+1}=w_{1}^{t}-\varepsilon \nabla E$ (훈련샘플에 의한 E오차)
  • 임의의 지점부터 loss가 줄어드는방향으로 parameter 갱신
  • Learning rate $\varepsilon$ (얼만큼 움직일까)

 

Stochastic Gradient decent(SGD)

  • Batch learning과는 달리 샘플일부만 사용
  • 빠른 학습, local minima 위험적음
  • 노이즈에 의한 변동 큼
  • $E_n$ 하나의 샘플n에 대한 오차함수의 기울기

 

Batch Learning(Epoch Learning)

  • 전체 훈련 데이터 사용, 대규모 적용 힘듬
  • local minima에 빠질 위험 큼(구성이 항상같음)
  • $E=\sum_{l=1}^{m}(y^l-t^l)^2$

 

Mini-Batch

  • 몇 개의 샘플을 집합으로 묶은 단위로 업데이트
  • $E_t=\frac{1}{N_t}\sum_{n\in D_t}^{}E_n$

 

AdaGrad

  • 적응형으로 학습률 조정(많이 갱신된 가중치 는 학습률 낮춤)
  • $E=\frac{1}{\sqrt{h}}(\frac{\partial E}{\partial w_1})\qquad h=h+(\frac{\partial E}{\partial w_1})^2$

 

RMSProp

  • AdaGrad 단점 해결 제곱합이 아닌 지수평균으로 대체
  • Gradient 발산 방지
  • $h=rh+(1-r)(\frac{\partial E}{\partial w_1})^2$

Momentum

  • $w_{1}^{t+1}=w_{1}^{t}-\varepsilon \nabla E + \mu\nabla w^{t-1}$
  • 가중치 업데이트값에 이전 업데이트값을 일정비율 더함(gradient decent과정에 관성줌)
  • Adam: AdaGrad와 Momentum 융합

출처 AI School