📚 [Archive] CS & AI 스터디/[STUDY] 인공지능 🤖

[신경망 연산] 선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까?

히주 2025. 2. 4. 13:21

 

활성화 함수는 신경망에서 입력을 변환해 다음 층으로 전달하는 역할을 합니다.  크게 선형 활성화 함수 (Linear Activation Function) 비선형 활성화 함수 (Non-linear Activation Function) 로 나눌 수 있습니다.

 

 


 

📏 선형 활성화 함수란?

선형 활성화 함수는 입력을 그대로 출력하는 가장 단순한 형태의 함수입니다.

아래 식은 딥러닝이 아닌 전통적인 머신러닝(예: 선형 회귀) 에서 자주 사용됩니다.

 

  •  가중치(Weight)
  • b : 편향(Bias)

이 함수는 아무리 여러 층을 쌓아도 결국 하나의 선형 변환으로 수렴하게 됩니다.

 

 

📐 선형 활성화 함수가 문제인 이유

딥러닝에서 중요한 점은 비선형성입니다. 층을 여러 개 쌓을 때마다 복잡한 패턴을 학습할 수 있어야 합니다. 그런데 선형 활성화 함수를 사용하면 아래와 같은 문제가 발생합니다.

 

❌ 문제 | 층을 여러 개 쌓아도 같은 형태로 축소됨

예를 들어, 두 개의 선형 활성화 함수를 쌓는다고 해봅시다.

위의 식을 정리하면 아래와 같이 됩니다.

 

이제 도 추가해보겠습니다.

정리하면 아래와 같이 됩니다.

아무리 층을 많이 쌓아도 결국에는 하나의 선형 변환 ax+b와 똑같아집니다.

➡️ 정리하자면 여러 층을 쌓아도 깊은 신경망의 의미가 사라지는 것 입니다.

 

 

 

 

✅ 해결책: 비선형 활성화 함수 사용!

그래서 딥러닝에서는 반드시 비선형 활성화 함수(예: ReLU, Sigmoid, Tanh 등)를 사용합니다.

비선형 함수는 층이 깊어질수록 더욱 복잡한 표현을 학습할 수 있도록 해줍니다.

 

대표적인 비선형 활성화 함수

  • ReLU (Rectified Linear Unit) - 가장 널리 쓰이는 활성화 함수
  • Sigmoid - 0과 1 사이로 출력값을 정규화 (기울기 소실 문제 존재)
  • Tanh - -1과 1 사이로 출력 (Sigmoid보다 나음)
  • Leaky ReLU - ReLU의 단점(뉴런 죽음 현상) 개선

 

 

 

🎯 정리하자면, 선형 활성화 함수는 층을 쌓아도 같은 형태로 유지되므로 딥러닝에서 의미가 없습니다. 그러나 비선형 활성화 함수는 층이 깊어질수록 더욱 복잡한 특징을 학습할 수 있습니다. 그래서 딥러닝에서는 ReLU, Sigmoid, Tanh 같은 비선형 함수를 사용하는 겁니다.