Back Propagation (1) 썸네일형 리스트형 Data Analysis / DL / Basic(2) ▷ 미분을 사용해서 weight와 bias값을 전부 바꾸기에는 시간이 너무 오래걸린다. ▷ "paul"이라는 사람이 chain rule을 이용해서 미분을 행렬연산으로 대체하여 해결하는 방법을 찾음 ▷ 오차값을 이용하여 W를 역방향으로 행렬연산하여 갱신가능 ▷ Sigmoid 함수를 사용하므로 값이 0~1 사이로 줄여진다. ▷ W에 Sigmoid를 적용해 나가므로 오차 역전파를 진행할수록 점점 0에 수렴해나가고, 제일 처음 layer는 W의 변경이 거의 없게 되는 현상 ▷ layer 수가 많을 수록 Vanishing Gradient 현상이 심화된다. ▷ ReLU(Rectified Linear Unit - max(0.. 이전 1 다음