📚 [Archive] CS & AI 스터디/[STUDY] 인공지능 🤖

[AI개요] 머신러닝 개요

히주 2025. 1. 21. 00:13


1️⃣ 지도학습 (Supervised Learning)

정답(Label) 데이터를 가지고 학습하는 방식이며 정답이 있는 데이터를 머신러닝 알고리즘에 적용하여 규칙을 찾습니다.

📌 지도학습 방식

✔ 분류 (Classification) → 특정 범주(클래스)로 데이터를 분류

  • 이진 분류(Binary Classification): 두 개의 클래스로 구분 (예: 스팸 vs. 정상 메일)
    • 대표 알고리즘: 서포트 벡터 머신(SVM), 의사 결정 나무(Decision Tree), 로지스틱 회귀(Logistic Regression)
  • 다중 분류(Multi-class Classification): 세 개 이상의 클래스로 구분 (예: 손글씨 숫자 인식)

✔ 회귀 (Regression) → 연속적인 수치 값을 예측하는 문제

  • 대표 알고리즘: 선형 회귀(Linear Regression), 랜덤 포레스트 회귀(Random Forest Regression)
  • 예제: 집값 예측, 주식 가격 예측

 

 

2️⃣ 비지도학습 (Unsupervised Learning)

정답(Label) 없이 데이터의 패턴을 찾아 학습하는 방식이며, 데이터를 그룹화하거나 관계를 분석하는 데 사용됩니다.

📌 비지도학습 방식

✔ 군집화(Clustering)

비슷한 데이터를 그룹으로 묶는 기법 (예: 고객 유형 분석)

✔ 차원 축소(Dimensionality Reduction)

데이터의 주요 특징만 추출하는 기법 (예: PCA를 이용한 데이터 압축)


 

 

🔍 모델링 과정

1️⃣ 문제 정의 → 해결할 문제를 정함 (예: 이메일이 스팸인지 아닌지 예측)

2️⃣ 데이터 수집 및 이해 → 사용할 데이터를 확보하고 특성을 분석

3️⃣ 데이터 준비 → 결측치 처리, 데이터 변환 등 전처리 수행

4️⃣ 데이터 모델링 → 적절한 머신러닝 알고리즘을 적용하여 모델 학습

5️⃣ 모델 평가 → 예측 성능을 검증하고 개선


 

🔖머신러닝 기본 용어

제목 장르 유형 좋아요(LABEL)
셜록 추리, 스릴러, 드라마 Y
지정생존자 드라마 Y
빨간 머리 앤 가족 드라마 N
이웃집 토토로 어린이/가족 영화/애니 N
시그널 스릴러, 드라마 Y

✔ 데이터 세트 (Dataset)

주어진 데이터 전체를 의미합니다.

✔ 데이터 샘플 (Sample)

개별 데이터를 의미합니다. ( EX)  셜록 )

✔ 데이터 서브셋 (Subset)

데이터 일부를 의미합니다. ( EX) 특정 장르(스릴러, 드라마)만 포함된 데이터 일부를 선택  ) 

✔ 특성 (Feature)

데이터가 가진 개별 특징을 의미하며 입력 데이터를 테이블 형태로 표시할 때 개별 컬럼(열)에 해당합니다.

  • 특성(Feature): 제목, 장르 유형

✔ 정답 (Label)

모델이 예측하고자 하는 정보를 의미합니다.

  • 정답(Label): 좋아요(Y/N)

✔ 범주, 클래스 (Class)

지도학습 중 분류(Classification) 알고리즘에서 정답 데이터가 가지는 값의 유형을 의미합니다.

  • 예제: 이진 분류에서는 Y(좋아요), N(좋아요 아님) 두 개의 클래스
  • 다중 분류에서는 영화 장르를 추리, 스릴러, 드라마 등의 여러 클래스로 구분할 수 있음