기울기 소실 문제 (Vanishing Gradient Problem)

정의

기울기 소실 문제(vanishing gradient problem)는 다층 신경망을 역전파(backpropagation)로 학습할 때, 손실 함수에 대한 기울기(gradient)가 입력에 가까운 층으로 전파될수록 점점 작아져 0에 수렴하는 현상을 말한다. 결과적으로 앞쪽 층의 가중치가 거의 갱신되지 않아, 깊은 네트워크가 “충분히 학습되지 못한” 상태에 머무른다. 반대 방향으로 기울기가 폭주하는 경우는 기울기 폭발(exploding gradient) 이라고 부른다.

왜 중요한가

1990년대까지 신경망은 “이론적으로 깊게 쌓을 수 있지만 실제로는 잘 학습되지 않는다”는 한계를 갖고 있었다. 1991년 제프 호크라이터(Sepp Hochreiter)의 디플롬 논문은 이 문제를 수학적으로 분석했고, 1997년 호크라이터와 슈미트후버는 LSTM 으로 순환 신경망에서의 기울기 소실을 완화하는 구조를 제안했다. 2010년 사비에 글로로(Xavier Glorot)와 요슈아 벤지오는 “Understanding the difficulty of training deep feedforward neural networks”에서 활성화 함수와 가중치 초기화 선택이 기울기 흐름에 미치는 영향을 정량적으로 보였다. 이후 ReLU 활성화, 더 나은 초기화(Xavier/He), 배치 정규화(Batch Normalization), 잔차 연결(ResNet) 등의 기법이 등장하면서 수십·수백 층 깊이의 모델 학습이 가능해졌고, 이것이 현대 딥러닝과 LLM 의 전제 조건이 되었다.

Semicolon에서의 의미

Semiclass에서 기울기 소실 문제는 “더 깊게 쌓으면 더 똑똑해지지 않을까?”라는 직관이 왜 단순하지 않은가를 보여주는 출발점이다. ReLU·ResNet·Transformer 같은 익숙한 키워드들이 사실은 모두 “기울기를 어떻게 살아 있게 흐르게 할 것인가”에 대한 답이라는 점을 이해하면, 아키텍처 발전사가 하나의 줄기로 보이기 시작한다.

예시

시그모이드/tanh 활성화 + 깊은 네트워크: 양 끝에서 미분값이 작아 기울기가 빠르게 소실
LSTM: 셀 상태와 게이트 구조로 RNN 의 장기 의존성 학습 가능
ResNet: skip connection 으로 기울기 경로를 단축해 100+ 층 학습 가능

주의할 점

“ReLU 를 쓰면 끝”이 아니다. 매우 깊은 네트워크에서는 여전히 초기화, 정규화, 잔차 구조, 학습률 스케줄이 함께 맞아야 학습이 안정된다. 또한 기울기 폭발(exploding gradient) 은 별도의 문제로, 보통 기울기 클리핑(gradient clipping) 으로 대응한다.

정의

왜 중요한가

Semicolon에서의 의미

예시

주의할 점

출처