[신경망 연산] 선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까?

📚 [Archive] CS & AI 스터디/[STUDY] 인공지능 🤖

[신경망 연산] 선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까?

히주 2025. 2. 4. 13:21

활성화 함수는 신경망에서 입력을 변환해 다음 층으로 전달하는 역할을 합니다. 크게 선형 활성화 함수 (Linear Activation Function) 와 비선형 활성화 함수 (Non-linear Activation Function) 로 나눌 수 있습니다.

📏 선형 활성화 함수란?

선형 활성화 함수는 입력을 그대로 출력하는 가장 단순한 형태의 함수입니다.

아래 식은 딥러닝이 아닌 전통적인 머신러닝(예: 선형 회귀) 에서 자주 사용됩니다.

가중치(Weight)
b : 편향(Bias)

이 함수는 아무리 여러 층을 쌓아도 결국 하나의 선형 변환으로 수렴하게 됩니다.

📐 선형 활성화 함수가 문제인 이유

딥러닝에서 중요한 점은 비선형성입니다. 층을 여러 개 쌓을 때마다 복잡한 패턴을 학습할 수 있어야 합니다. 그런데 선형 활성화 함수를 사용하면 아래와 같은 문제가 발생합니다.

❌ 문제 | 층을 여러 개 쌓아도 같은 형태로 축소됨

예를 들어, 두 개의 선형 활성화 함수를 쌓는다고 해봅시다.

위의 식을 정리하면 아래와 같이 됩니다.

이제 도 추가해보겠습니다.

정리하면 아래와 같이 됩니다.

아무리 층을 많이 쌓아도 결국에는 하나의 선형 변환 ax+b와 똑같아집니다.

➡️ 정리하자면 여러 층을 쌓아도 깊은 신경망의 의미가 사라지는 것 입니다.

✅ 해결책: 비선형 활성화 함수 사용!

그래서 딥러닝에서는 반드시 비선형 활성화 함수(예: ReLU, Sigmoid, Tanh 등)를 사용합니다.

비선형 함수는 층이 깊어질수록 더욱 복잡한 표현을 학습할 수 있도록 해줍니다.

✍ 대표적인 비선형 활성화 함수

ReLU (Rectified Linear Unit) - 가장 널리 쓰이는 활성화 함수
Sigmoid - 0과 1 사이로 출력값을 정규화 (기울기 소실 문제 존재)
Tanh - -1과 1 사이로 출력 (Sigmoid보다 나음)
Leaky ReLU - ReLU의 단점(뉴런 죽음 현상) 개선

🎯 정리하자면, 선형 활성화 함수는 층을 쌓아도 같은 형태로 유지되므로 딥러닝에서 의미가 없습니다. 그러나 비선형 활성화 함수는 층이 깊어질수록 더욱 복잡한 특징을 학습할 수 있습니다. 그래서 딥러닝에서는 ReLU, Sigmoid, Tanh 같은 비선형 함수를 사용하는 겁니다.

'📚 [Archive] CS & AI 스터디 > [STUDY] 인공지능 🤖' 카테고리의 다른 글

[인공지능개요] 인공지능 학습 방식 (3)	2025.02.05
[신경망 연산] 활성화 함수(Activation Function) (0)	2025.02.04
[딥러닝] 인공신경망 (Artificial Neural Networks, ANN) (3)	2025.02.04
[AI개요] 머신러닝 개요 (6)	2025.01.21
[혼공머] 훈련 세트와 테스트 세트 (4)	2024.11.29

현재글[신경망 연산] 선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까?

Heeju.zip

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Heeju.zip