최적화 (Optimize)

최적화 문제

다양한 종류의 문제에서 최적의 해법을 찾을 수 있는 일반적인 최적화 알고리즘
손실함수를 최소화 하는 파라이터를 반복 및 조정을 통해 찾는다.
- 손실함수의 현재 기울기(gradient)를 계산한다
- gradient가 감소하는 방향으로 벡터 $W$를 조정한다
- gradient가 0이 되는 값을 찾는다.
- (= 미분(변화율)값 == 0 인 순간을 찾는다.)
gradient가 양수이면 loss와 weight가 비례관계란 의미이므로 loss를 더 작게 하려면 weight가 작아져야 한다.
gradient가 음수이면 loss와 weight가 반비례관계란 의미이므로 loss를 더 작게 하려면 weight가 커져야 한다.
학습률 (Learning rate)
- 기울기에 따라 이동할 step의 크기. 경사하강법 알고리즘에서 지정해야하는 하이퍼 파라미터이다.
- 학습률을 너무 작게 잡으면 최소값에 수렴하기 위해 많은 반복을 진행해야해 시간이 오래걸린다.
- 학습률을 너무 크게 잡으면 왔다 갔다 하다가 오히려 더 큰 값으로 발산하여 최소값에 수렴하지 못하게 된다.