
🚀 활성화 함수(Activation Function)란?
활성화 함수(Activation Function)는 인공신경망에서 뉴런(노드)이 입력값을 받아 출력으로 변환하는 데 사용되는 비선형 함수입니다. 수학적으로 활성화 함수 는 입력 에 대해 특정 변환을 수행하여 출력값을 결정하는 역할을 합니다.

- W : 가중치(Weight)
- b : 편향(Bias)
- f(x) : 활성화 함수
- y : 출력값
📌 활성화 함수의 발전과 신경망의 진화
초기의 신경망은 퍼셉트론과 계단 함수를 사용했지만 학습이 어려운 문제가 있었습니다. 이후 시그모이드와 Tanh 함수가 등장했지만 기울기 소실 문제로 인해 깊은 신경망에서는 학습이 잘되지 않았습니다.
그러다가 ReLU 함수가 등장하면서 딥러닝이 비약적으로 발전하게 되었으며 현재는 ReLU, Leaky ReLU, Softmax 등이 많 사용되고 있습니다.
🔥 활성화 함수의 역할
활성화 함수는 신경망이 복잡한 패턴을 학습할 수 있도록 비선형성(Non-linearity)을 추가하는 역할을 합니다.
쉽게 말해 활성화 함수는 입력 데이터를 단순한 직선적인 변화가 아니라 더 복잡하고 다양한 형태로 변환할 수 있도록 도와줍니다.
예를 들어, 만약 활성화 함수 없이 단순한 선형 함수만을 사용한다면 신경망의 여러 층을 거쳐도 최종적으로는 단순한 선형 관계만 학습할 수 있습니다. 그렇게 된다면 복잡한 문제를 해결하는 데 한계가 있습니다.
비선형성을 추가하는 활성화 함수를 사용하면 신경망이 단순한 직선이 아닌 곡선과 같은 복잡한 관계를 학습할 수 있습니다.
이렇게 하면 얼굴 인식, 자연어 처리, 음성 인식 등과 같은 문제에서 신경망이 효과적으로 패턴을 찾아낼 수 있습니다.
즉, 활성화 함수가 없다면 신경망은 단순한 계산기와 다를 바 없지만 활성화 함수를 통해 복잡한 문제를 다룰 수 있는 강력한 도구가 됩니다.
🔑 활성화 함수는 왜 중요한가?
활성화 함수는 인공신경망의 핵심 요소로 뉴런이 정보를 처리하고 학습할 수 있도록 돕습니다. 적절한 활성화 함수를 선택하는 것이 신경망의 성능을 결정짓는 중요한 요소이며 다양한 함수들이 연구되고 발전해왔습니다. 아래와 같은 이점을 통합해 활성화 함수의 선택이 인공신경망의 성능을 좌우하기 때문에 각 함수의 특성을 잘 이해하는 것이 중요합니다.
- 비선형성을 추가하여 복잡한 패턴을 학습할 수 있게 함
- 적절한 함수 선택이 학습 속도와 정확도에 큰 영향을 줌
- 출력 범위를 제한하여 신경망 학습을 안정적으로 진행할 수 있도록 함
- 역전파(Backpropagation) 시 원활한 gradient 계산을 돕고 학습 효율을 높임
🧩 활성화 함수의 종류
📏 선형 활성화 함수 (Linear Activation Function)

가장 단순한 형태로 입력을 그대로 출력하는 함수 (머신러닝의 개념과 가깝다 볼 수 있음)
(여러 층을 쌓아도 선형 변환만 일어나므로 깊은 신경망에서 의미가 없음)
선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까?
활성화 함수는 신경망에서 입력을 변환해 다음 층으로 전달하는 역할을 합니다. 크게 선형 활성화 함수 (Linear Activation Function) 와 비선형 활성화 함수 (Non-linear Activation Function) 로 나눌 수 있습
yiheeju.tistory.com
📐 비선형 활성화 함수 (Non-linear Activation Function)
1️⃣ 계단 함수(Step Function) – 퍼셉트론에서 사용됨


임계치를 기준으로 가중합의 활성화 여부 결정하며 0 or 1의 이산적인 값 출력.
(인공 신경망에서 활성화 함수로 계단함수를 용하면 기울기가 무한대(x=0)인 구간에서 미분이 불가하여 가중치의 업데이트 과정에서 문제가 발생함. 따라서 계단함수는 단일 퍼셉트론의 활성화 함수로만 사용되며 딥러닝의 활성화 함수로는 부적절함)
2️⃣ 시그모이드 함수(Sigmoid Function) – 초기 신경망에서 사용됨


정의역은 실수 전체이지만 유한한 구간(a,b) 사이의 한정된 값을 반환되며 a,b는 주로 0과 1을 사용.
시그모이드 함수에서 정의역의 절댓값이 커질 수록 미분 값은 0으로 수렴됨.
(기울기 소실(Vanishing Gradient) 문제 발생)
3️⃣ 하이퍼볼릭 탄젠트(Tanh) 함수


출력 범위가 [-1, 1]이므로 시그모이드보다 학습 속도가 빠름.
(여전히 기울기 소실 문제 존재)
4️⃣ ReLU(Rectified Linear Unit) 함수 – 가장 많이 사용됨


입력 값이 0보다 작으면 0을 0보다 크면 입력 값 그대로(선형 함수) 출력하는 함수.
단순하면서도 효과적이며 깊은 신경망에서 성능이 뛰어남.
(입력이 0 이하일 경우 뉴런이 죽어버리는 문제(Dead Neuron) 발생 가능)
5️⃣ Softmax 함수 – 다중 분류에서 사용됨


출력 값이 0~1 사이로 정규화되며 모든 출력 값의 총합이 항상 1이 되는 특성을 가진 함수.
다중 클래스 분류 문제에서 가장 많이 사용됨.
여러 개의 클래스에 대해 예측한 결과를 정규화하여 확률값처럼 표현.
'📚 [Archive] CS & AI 스터디 > [STUDY] 인공지능 🤖' 카테고리의 다른 글
| [모델 평가/학습 목표] 주요 손실 함수 정리 (2) | 2025.02.05 |
|---|---|
| [인공지능개요] 인공지능 학습 방식 (3) | 2025.02.05 |
| [신경망 연산] 선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까? (0) | 2025.02.04 |
| [딥러닝] 인공신경망 (Artificial Neural Networks, ANN) (3) | 2025.02.04 |
| [AI개요] 머신러닝 개요 (6) | 2025.01.21 |