lecture02 1교시 개념정리

파이썬 딥러닝 ai 스쿨 기초/lecture02

lecture02 1교시 개념정리

junny1997 2021. 3. 15. 17:05

Loss Function (Error Function)

Mean squared error (평균 제곱 오차)

$E=\frac{1}{2}\sum_{k}^{}(y_k-t_k)^2$

ex

Cat: 0.1 $(0.1 - 1)^2$

Dog: 0.9 $(0.9 - 0)^2$

Cross entropy error (교차 엔트로피 오차, 정답일때의 출력이 전체값을 결정)

$E=-\sum_{k}^{}t_k\log y_k$

ex

Cat: 0.1 $1*\log 0.1$

Dog: 0.9 $0*\log 0.9$

Back-Propagation(역오차전파)

출처 AI School

출처 AI School

Gradient decent

$w_{1}^{t+1}=w_{1}^{t}-\varepsilon \nabla E$ (훈련샘플에 의한 E오차)
임의의 지점부터 loss가 줄어드는방향으로 parameter 갱신
Learning rate $\varepsilon$ (얼만큼 움직일까)

Stochastic Gradient decent(SGD)

Batch learning과는 달리 샘플일부만 사용
빠른 학습, local minima 위험적음
노이즈에 의한 변동 큼
$E_n$ 하나의 샘플n에 대한 오차함수의 기울기

Batch Learning(Epoch Learning)

전체 훈련 데이터 사용, 대규모 적용 힘듬
local minima에 빠질 위험 큼(구성이 항상같음)
$E=\sum_{l=1}^{m}(y^l-t^l)^2$

Mini-Batch

몇 개의 샘플을 집합으로 묶은 단위로 업데이트
$E_t=\frac{1}{N_t}\sum_{n\in D_t}^{}E_n$

AdaGrad

적응형으로 학습률 조정(많이 갱신된 가중치 는 학습률 낮춤)
$E=\frac{1}{\sqrt{h}}(\frac{\partial E}{\partial w_1})\qquad h=h+(\frac{\partial E}{\partial w_1})^2$

RMSProp

AdaGrad 단점 해결 제곱합이 아닌 지수평균으로 대체
Gradient 발산 방지
$h=rh+(1-r)(\frac{\partial E}{\partial w_1})^2$

Momentum

$w_{1}^{t+1}=w_{1}^{t}-\varepsilon \nabla E + \mu\nabla w^{t-1}$
가중치 업데이트값에 이전 업데이트값을 일정비율 더함(gradient decent과정에 관성줌)
Adam: AdaGrad와 Momentum 융합

출처 AI School

'파이썬 딥러닝 ai 스쿨 기초 > lecture02' 카테고리의 다른 글

lecture02 2교시 인공지능 텐서플로우 실습 필기체 인식기1 (0)	2021.03.22
lecture02 0교시 파이썬 기초 연습문제 (0)	2021.03.15

현재글lecture02 1교시 개념정리

댓글

Today :
Yesterday :

티스토리툴바