생성형 AI의 시작 : Generative Adversarial Nets 논문 리뷰

📚 [Archive] CS & AI 스터디/[PR] 논문 리뷰 📝

생성형 AI의 시작 : Generative Adversarial Nets 논문 리뷰

히주 2025. 1. 6. 00:59

생성형 AI의 시작을 본격적으로 알린 모델은 2014년 발표된 논문인 "Generative Adversarial Nets (GANs)"입니다. 이 논문은 두 개의 신경망(생성자와 판별자)이 경쟁적으로 학습하는 방식으로 이전까지의 머신러닝 및 딥러닝 모델과는 차별화된 방식을 제시해 줍니다.

GAN은 생성 모델(Generative Model)의 한 종류로 데이터의 확률 분포를 학습하여 새로운 데이터를 생성하는 것을 목표로 합니다. 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 생성할 수 있으며 이는 데이터 증강, 이미지 합성, 비디오 생성 및 복원, 스타일 전이, 텍스트-이미지 변환 등 창의적인 분야에서 광범위하게 활용되고 있습니다.

논문 리뷰를 통해 GAN의 구조와 작동 원리를 공부하고 다양한 응용 분야에서의 활용 사례를 다뤄보려 합니다.

✨ 논문 한눈에 요약하기

GAN(Generative Adversarial Network)은 생성 모델과 판별 모델을 동시에 훈련하는 적대적 학습을 통해 데이터의 확률 분포를 학습하는 새로운 프레임워크
> 생성 모델(G) : 실제 데이터처럼 보이는 데이터를 생성
> 판별 모델(D) : 생성된 데이터가 진짜 데이터인지 가짜 데이터인지 구별함

훈련이 진행될수록 G는 점점 더 진짜 같은 데이터를 생성하고 D는 판별하는 능력이 향상됨.
최적의 상태는 G가 실제 데이터 분포를 완벽하게 복제하고 D는 진짜와 가짜를 구별하지 못해 모든 데이터에 대해 1/2의 확률을 출력하게 됨.

🧠 GAN의 탄생 배경

1. 딥러닝의 목표

딥러닝은 다양한 데이터(이미지, 오디오, 텍스트 등)의 확률 분포를 모델링하는 것을 목표로 함.

이를 통해 AI는 인간이 다루는 복잡한 데이터도 인식하고 생성할 수 있음.

2. 이전까지의 한계

딥러닝의 성공 사례는 대부분 판별 모델(discriminative model)에서 이루어졌으며 감각 데이터를 레이블로 매핑하는 데 사용됨.
반면, 생성 모델(generative model)은 확률 계산 과정에서 발생하는 비가역적인 확률 문제로 인해 덜 성공적이었음.

❓ 최대 우도 추정(MLE)이란?

데이터에서 가장 잘 설명되는 확률 분포의 파라미터를 찾는 방법임.
고양이와 강아지를 구분하는 모델을 예로 들면 모델이 고양이를 90% 확률로 예측할 때 MLE는 이 확률을 더 높이기 위해 모델을 조정하는 방식임.

❓ 비가역적인 확률 계산(MLE)이란?

MLE는 모델이 특정 확률을 예측할 때 그 확률을 역으로 계산하는 과정이 필요함.
하지만 이미지, 오디오와 같은 고차원 데이터에서는 역방향 계산이 매우 어렵거나 불가능함.
예를 들어 GAN이 고양이 이미지를 생성했을 때 이 이미지가 실제 고양이일 확률을 정확하게 계산하는 것이 어려움.

🔧 활성화 함수의 장점 활용이 어려운 이유

활성화 함수는 비선형성을 추가해 복잡한 패턴을 학습하도록 도와줌.
그러나 MLE 기반 생성 모델에서는 역계산이 필요하기 때문에 ReLU와 같은 비선형 활성화 함수는 역방향 계산을 더 어렵게 만듦.
결과적으로 생성 모델의 학습이 불안정하거나 제대로 작동하지 않는 경우가 발생함.

🚀 GAN – 새로운 생성 모델의 시대

이 논문에서는 위의 문제를 해결하는 새로운 생성 모델 추정 절차를 제안함.

💡핵심 아이디어💡

확률을 직접 계산하지 않고 생성 모델과 판별 모델을 경쟁시키는 방식으로 학습함.
생성 모델이 새로운 데이터를 만들면 판별 모델은 그 데이터가 진짜인지 가짜인지 구별함.
이러한 과정에서 생성 모델은 점점 더 진짜 같은 데이터를 생성하고 판별 모델은 더 정교해짐.
결국 확률을 직접 추정하지 않고도 생성 모델이 실제 데이터 분포를 학습할 수 있게 됨.

🔍 GAN의 학습 과정 예시

생성 모델 : 위조 지폐를 만드는 범죄자
판별 모델 : 위조 지폐를 감별하는 경찰

범죄자가 위조 지폐를 만들고 경찰이 이를 감별하는 과정에서 위조 기술과 감별 기술이 모두 발전함.

궁극적으로 경찰이 위조 지폐를 전혀 감별할 수 없는 단계에 이르면 GAN은 진짜 같은 데이터를 생성하게 됨.

🤓 GAN의 학습 과정

위 그래프는 생성자와 판별자의 학습 과정을 시각적으로 나타낸 것임.

📈그래프 구성 요소

검은 점(Black dots): 실제 데이터의 분포 (진짜 데이터)
초록색 선(Green line): 생성자가 만들어낸 데이터 분포 (가짜 데이터)
파란색 점선(Blue dotted line): 판별자가 가짜와 진짜를 구별하는 확률
x축: 데이터 공간
z축: 잠재 변수(latent variable) 공간

🪜단계별 GAN 학습 과정

1. 초기 단계 – 랜덤 데이터 생성

(a) 생성자(G)는 아직 충분히 학습되지 않은 상태로 랜덤 노이즈와 같은 비정상적인 데이터를 생성함.

2. 학습 진행 – 생성자의 분포 조정

(b) 생성자가 점진적으로 실제 데이터 분포를 모방하기 시작함.

3. 중간 단계 – 생성자와 판별자의 경쟁

(c) 생성자의 분포가 실제 데이터 분포에 점점 더 근접해짐.

4. 수렴 상태 – 실제 데이터와 유사한 생성

(d) GAN이 수렴하게 되며 생성자의 데이터 분포는 실제 데이터와 거의 동일하게 됨.

🧪 실험 (Experiments)

GAN은 다양한 데이터셋에서 실험되었음.

MNIST, TFD(Toronto Face Database), CIFAR-10에서 생성기를 훈련함.

⚙️ 네트워크 구성

생성기(G) 네트워크

- ReLU와 시그모이드(sigmoid) 활성화 함수를 사용함.

판별기(D) 네트워크

- Maxout 활성화 함수를 사용하고 드롭아웃(dropout)을 적용하여 과적합을 방지함.

📊 실험 결과 (Results)

MINIST 및 TFD 데이터셋을 기반으로 테스트 데이터에 대해서 파르젠 윈도우 기반 로그우도 추정 결과가 나와있음.
- MINIST에서는 테스트 세트의 평균 로그우도를 보고하였으며 표준 오차는 예제 간의 분산으로 계산되었음.
- TED에서는 각 데이터 폴드에 대해 검증 세트를 사용해 𝜎를 조정하고 각 폴드에서의 평균 로그우도를 계산함.
GAN은 기존 생성 모델 대비 더 나은 성능을 보임.

🖼️ 샘플의 시각화

아래 그림은 훈련 후 생성기에서 생성된 샘플을 보여줌.

✅ 장점과 단점

장점

마르코프 체인이 필요 없음 – 더 효율적인 학습 가능 .
역전파만으로 학습 가능 .
비선형 활성화 함수(ReLU 등)를 자유롭게 사용 가능 .
매우 복잡하고 고차원적인 데이터에서도 성공적으로 생성 가능 .

단점

생성 모델과 판별 모델이 동기화되어야 함 .
판별기가 너무 빠르게 학습되면 생성기가 효과적으로 학습되지 않음 .
헬베티카 시나리오: 생성기가 모든 를 동일한 로 매핑하여 다양성이 부족해질 위험이 있음 .

❓ 마르코프 체인이란?

마르코프 체인은 현재 상태만으로 미래 상태를 예측하는 확률 모델 .
핵심 개념: 과거는 잊고 현재 상태만이 다음 상태를 결정함.
- EX１) 날씨 예측 – "오늘 맑으면 내일 맑을 확률은 70%" 같은 방식.
- EX２) 보드 게임 – "현재 칸에서 주사위를 던져 다음 칸으로 이동하는 것 . "

'📚 [Archive] CS & AI 스터디 > [PR] 논문 리뷰 📝' 카테고리의 다른 글

AI 최신 이슈 : DeepSeek & 논문 요약 (0)	2025.01.28
잔차 학습(Residual Learning) vs 일반적인 신경망 학습 (0)	2025.01.28
🎨 Generative Adversarial Nets 논문 구현 (2)	2025.01.06

현재글생성형 AI의 시작 : Generative Adversarial Nets 논문 리뷰

Heeju.zip

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Heeju.zip

생성형 AI의 시작 : Generative Adversarial Nets 논문 리뷰

✨ 논문 한눈에 요약하기