
1️⃣ 지도학습 (Supervised Learning)
정답(Label) 데이터를 가지고 학습하는 방식이며 정답이 있는 데이터를 머신러닝 알고리즘에 적용하여 규칙을 찾습니다.
📌 지도학습 방식
✔ 분류 (Classification) → 특정 범주(클래스)로 데이터를 분류
- 이진 분류(Binary Classification): 두 개의 클래스로 구분 (예: 스팸 vs. 정상 메일)
- 대표 알고리즘: 서포트 벡터 머신(SVM), 의사 결정 나무(Decision Tree), 로지스틱 회귀(Logistic Regression)
- 다중 분류(Multi-class Classification): 세 개 이상의 클래스로 구분 (예: 손글씨 숫자 인식)
✔ 회귀 (Regression) → 연속적인 수치 값을 예측하는 문제
- 대표 알고리즘: 선형 회귀(Linear Regression), 랜덤 포레스트 회귀(Random Forest Regression)
- 예제: 집값 예측, 주식 가격 예측
2️⃣ 비지도학습 (Unsupervised Learning)
정답(Label) 없이 데이터의 패턴을 찾아 학습하는 방식이며, 데이터를 그룹화하거나 관계를 분석하는 데 사용됩니다.
📌 비지도학습 방식
✔ 군집화(Clustering)
비슷한 데이터를 그룹으로 묶는 기법 (예: 고객 유형 분석)
✔ 차원 축소(Dimensionality Reduction)
데이터의 주요 특징만 추출하는 기법 (예: PCA를 이용한 데이터 압축)
🔍 모델링 과정
1️⃣ 문제 정의 → 해결할 문제를 정함 (예: 이메일이 스팸인지 아닌지 예측)
2️⃣ 데이터 수집 및 이해 → 사용할 데이터를 확보하고 특성을 분석
3️⃣ 데이터 준비 → 결측치 처리, 데이터 변환 등 전처리 수행
4️⃣ 데이터 모델링 → 적절한 머신러닝 알고리즘을 적용하여 모델 학습
5️⃣ 모델 평가 → 예측 성능을 검증하고 개선
🔖머신러닝 기본 용어
| 제목 | 장르 유형 | 좋아요(LABEL) |
| 셜록 | 추리, 스릴러, 드라마 | Y |
| 지정생존자 | 드라마 | Y |
| 빨간 머리 앤 | 가족 드라마 | N |
| 이웃집 토토로 | 어린이/가족 영화/애니 | N |
| 시그널 | 스릴러, 드라마 | Y |
✔ 데이터 세트 (Dataset)
주어진 데이터 전체를 의미합니다.
✔ 데이터 샘플 (Sample)
개별 데이터를 의미합니다. ( EX) 셜록 )
✔ 데이터 서브셋 (Subset)
데이터 일부를 의미합니다. ( EX) 특정 장르(스릴러, 드라마)만 포함된 데이터 일부를 선택 )
✔ 특성 (Feature)
데이터가 가진 개별 특징을 의미하며 입력 데이터를 테이블 형태로 표시할 때 개별 컬럼(열)에 해당합니다.
- 특성(Feature): 제목, 장르 유형
✔ 정답 (Label)
모델이 예측하고자 하는 정보를 의미합니다.
- 정답(Label): 좋아요(Y/N)
✔ 범주, 클래스 (Class)
지도학습 중 분류(Classification) 알고리즘에서 정답 데이터가 가지는 값의 유형을 의미합니다.
- 예제: 이진 분류에서는 Y(좋아요), N(좋아요 아님) 두 개의 클래스
- 다중 분류에서는 영화 장르를 추리, 스릴러, 드라마 등의 여러 클래스로 구분할 수 있음
'📚 [Archive] CS & AI 스터디 > [STUDY] 인공지능 🤖' 카테고리의 다른 글
| [신경망 연산] 선형 활성화 함수는 왜 딥러닝에서 사용되지 않을까? (0) | 2025.02.04 |
|---|---|
| [딥러닝] 인공신경망 (Artificial Neural Networks, ANN) (3) | 2025.02.04 |
| [혼공머] 훈련 세트와 테스트 세트 (4) | 2024.11.29 |
| [혼공머] 마켓과 머신러닝 (1) | 2024.11.28 |
| [혼공머] AI의 역사와 발전: 머신러닝에서 생성형 AI까지 (5) | 2024.11.26 |