
활성화 함수는 신경망에서 입력을 변환해 다음 층으로 전달하는 역할을 합니다. 크게 선형 활성화 함수 (Linear Activation Function) 와 비선형 활성화 함수 (Non-linear Activation Function) 로 나눌 수 있습니다.
📏 선형 활성화 함수란?
선형 활성화 함수는 입력을 그대로 출력하는 가장 단순한 형태의 함수입니다.
아래 식은 딥러닝이 아닌 전통적인 머신러닝(예: 선형 회귀) 에서 자주 사용됩니다.

- 가중치(Weight)
- b : 편향(Bias)
이 함수는 아무리 여러 층을 쌓아도 결국 하나의 선형 변환으로 수렴하게 됩니다.
📐 선형 활성화 함수가 문제인 이유
딥러닝에서 중요한 점은 비선형성입니다. 층을 여러 개 쌓을 때마다 복잡한 패턴을 학습할 수 있어야 합니다. 그런데 선형 활성화 함수를 사용하면 아래와 같은 문제가 발생합니다.
❌ 문제 | 층을 여러 개 쌓아도 같은 형태로 축소됨
예를 들어, 두 개의 선형 활성화 함수를 쌓는다고 해봅시다.

위의 식을 정리하면 아래와 같이 됩니다.

이제 도 추가해보겠습니다.

정리하면 아래와 같이 됩니다.

아무리 층을 많이 쌓아도 결국에는 하나의 선형 변환 ax+b와 똑같아집니다.
➡️ 정리하자면 여러 층을 쌓아도 깊은 신경망의 의미가 사라지는 것 입니다.
✅ 해결책: 비선형 활성화 함수 사용!
그래서 딥러닝에서는 반드시 비선형 활성화 함수(예: ReLU, Sigmoid, Tanh 등)를 사용합니다.
비선형 함수는 층이 깊어질수록 더욱 복잡한 표현을 학습할 수 있도록 해줍니다.
✍ 대표적인 비선형 활성화 함수
- ReLU (Rectified Linear Unit) - 가장 널리 쓰이는 활성화 함수
- Sigmoid - 0과 1 사이로 출력값을 정규화 (기울기 소실 문제 존재)
- Tanh - -1과 1 사이로 출력 (Sigmoid보다 나음)
- Leaky ReLU - ReLU의 단점(뉴런 죽음 현상) 개선
🎯 정리하자면, 선형 활성화 함수는 층을 쌓아도 같은 형태로 유지되므로 딥러닝에서 의미가 없습니다. 그러나 비선형 활성화 함수는 층이 깊어질수록 더욱 복잡한 특징을 학습할 수 있습니다. 그래서 딥러닝에서는 ReLU, Sigmoid, Tanh 같은 비선형 함수를 사용하는 겁니다.
'📚 [Archive] CS & AI 스터디 > [STUDY] 인공지능 🤖' 카테고리의 다른 글
| [인공지능개요] 인공지능 학습 방식 (3) | 2025.02.05 |
|---|---|
| [신경망 연산] 활성화 함수(Activation Function) (0) | 2025.02.04 |
| [딥러닝] 인공신경망 (Artificial Neural Networks, ANN) (3) | 2025.02.04 |
| [AI개요] 머신러닝 개요 (6) | 2025.01.21 |
| [혼공머] 훈련 세트와 테스트 세트 (4) | 2024.11.29 |