Loss Function (Error Function)
- Mean squared error (평균 제곱 오차)
$E=\frac{1}{2}\sum_{k}^{}(y_k-t_k)^2$
ex
Cat: 0.1 $(0.1 - 1)^2$
Dog: 0.9 $(0.9 - 0)^2$
- Cross entropy error (교차 엔트로피 오차, 정답일때의 출력이 전체값을 결정)
$E=-\sum_{k}^{}t_k\log y_k$
ex
Cat: 0.1 $1*\log 0.1$
Dog: 0.9 $0*\log 0.9$
Back-Propagation(역오차전파)
Gradient decent
- $w_{1}^{t+1}=w_{1}^{t}-\varepsilon \nabla E$ (훈련샘플에 의한 E오차)
- 임의의 지점부터 loss가 줄어드는방향으로 parameter 갱신
- Learning rate $\varepsilon$ (얼만큼 움직일까)
Stochastic Gradient decent(SGD)
- Batch learning과는 달리 샘플일부만 사용
- 빠른 학습, local minima 위험적음
- 노이즈에 의한 변동 큼
- $E_n$ 하나의 샘플n에 대한 오차함수의 기울기
Batch Learning(Epoch Learning)
- 전체 훈련 데이터 사용, 대규모 적용 힘듬
- local minima에 빠질 위험 큼(구성이 항상같음)
- $E=\sum_{l=1}^{m}(y^l-t^l)^2$
Mini-Batch
- 몇 개의 샘플을 집합으로 묶은 단위로 업데이트
- $E_t=\frac{1}{N_t}\sum_{n\in D_t}^{}E_n$
AdaGrad
- 적응형으로 학습률 조정(많이 갱신된 가중치 는 학습률 낮춤)
- $E=\frac{1}{\sqrt{h}}(\frac{\partial E}{\partial w_1})\qquad h=h+(\frac{\partial E}{\partial w_1})^2$
RMSProp
- AdaGrad 단점 해결 제곱합이 아닌 지수평균으로 대체
- Gradient 발산 방지
- $h=rh+(1-r)(\frac{\partial E}{\partial w_1})^2$
Momentum
- $w_{1}^{t+1}=w_{1}^{t}-\varepsilon \nabla E + \mu\nabla w^{t-1}$
- 가중치 업데이트값에 이전 업데이트값을 일정비율 더함(gradient decent과정에 관성줌)
- Adam: AdaGrad와 Momentum 융합
'파이썬 딥러닝 ai 스쿨 기초 > lecture02' 카테고리의 다른 글
lecture02 2교시 인공지능 텐서플로우 실습 필기체 인식기1 (0) | 2021.03.22 |
---|---|
lecture02 0교시 파이썬 기초 연습문제 (0) | 2021.03.15 |