[1] 분류 분석
1. 분류(Classification)
정의
- 데이터가 어느 그룹에 속하는지를 예측하는 데 사용하는 데이터 기법
- 군집화(Clustering)와 유사하나, 각 계급이 어떻게 정의되는지 미리 알아야 함
2. 분류 방법론
- K 최근접 이웃(K-Nearest Neighbor, KNN) : 인접한 K개의 이웃을 통하여 데이터가 소속되는 그룹을 결정
- 의사결정나무(Decision Tree) : 항목에 대한 관측값과 목표값을 연결하기 위한 트리 구조를 결정
- 베이지안 정리(Bayesian Theorem) : 불확실성 하에서 분류 문제를 조건부 확률로 해결하는 방법
- 인공 신경망(Artificial Neural Network, ANN) : 생물학의 신경망 구조를 모방하여 모델을 구축하는 방법
- 지지 벡터 기계(Support Vector Machine, SVM) : 주어진 데이터로부터 새로운 데이터의 소속 그룹을 판단하는 모델
K 최근접 이웃(K-Nearest Neighbor, KNN)
개요
- 인접한 K개의 이웃을 통하여 데이터가 소속되는 그룹을 결정
특징
- 잡음 또는 무관한 특징이 존재하면 정확성이 감소
- 변수의 크기가 중요성과 일치하지 않으면 성능 저하
- 적절한 K값을 선택하는 것이 중요
의사결정나무(Decision Tree)
개요
- 결정 트리 학습법이라고도 하며, 관측값과 목표값 간의 관계를 트리 구조로 모델링
특징
- 지도학습(Supervised Learning) 기반의 대표적인 분류 기법
- 분류 트리(Classification Tree), 회귀 트리(Regression Tree) 등 존재
- 랜덤 포레스트(Random Forest) 등 앙상블 기법으로 분류 속도 및 정확도 향상 가능
베이지안 정리(Bayesian Theorem)
개요
- 불확실성 하에서 의사결정 문제를 확률론적으로 다루는 방법
특징
- 조건부 확률(Conditional Probability) 모델에 기반
- 지도학습 환경에서 효율적인 훈련 가능
- 최대우도방법(MLE, Maximum Likelihood Estimation)을 통해 모수 추정 수행
- 복잡한 실제 상황에서도 높은 신뢰성 검증됨
인공 신경망(Artificial Neural Network, ANN)
개요
- 기계학습(Machine Learning)과 인지과학에서 생물학적 신경망 구조를 모방한 통계학적 학습 알고리즘
특징
- 지도, 반지도, 자율학습 모두 적용 가능
- 역전파 기법(Backpropagation)을 기반으로 한 경사하강법(Gradient Descent) 사용
- 유전 알고리즘(Genetic Algorithm) 등 다양한 학습기법과 결합 가능
지지 벡터 기계(Support Vector Machine, SVM)
개요
- 유한 차원 공간에서 데이터를 분류하는 최적의 초평면(Hyperplane)을 모델링
특징
- 선형 SVM을 이용해 최적 초평면 모델 구성 가능
- 새 표본의 분류 성능 향상을 위해 소프트 마진(Soft Margin) 적용
- 커널 트릭(Kernel Trick)을 이용하여 비선형 데이터도 분류 가능
[2] 군집 분석
1. 군집(Clustering)
정의
- 데이터 마이닝 기법 중 하나로, 데이터의 특성을 고려하여 군집을 정의하고 대표점을 찾는 작업
의의
- 데이터를 효율적으로 분류하는 데 도움
- 새로운 정보나 패턴을 발견할 수 있는 단서 제공
2. 군집의 구분
계층적 군집화(Hierarchical Clustering)
- 각 데이터 점을 하나의 군집으로 설정하고, 거리 기반으로 분할 또는 합병
- ex) 계통도(Dendrogram)를 이용해 유사성 확인 가능
분할적 군집화(Partitioning Clustering)
- 여러 개의 분할 영역을 결정하는 방법
- 거리 함수 및 평가 함수를 기반으로 수행
- ex) K-Means 알고리즘
3. 군집 방법론
계통도(Dendrogram, 덴드로그램)
개요
- 각 계층에서 군집 간의 유사성을 시각적으로 확인할 수 있음
흡수 과정(Agglomerative Process)
- 아래에서 위로 군집을 병합하는 방식
- N개의 군집이 연속적으로 합쳐져 하나의 군집으로 수렴
분리 과정(Divisive Process)
- 위에서 아래로 분할하는 방식
- 하나의 군집에서 N개의 표본으로 나누어 연속적으로 분리
K-Means 알고리즘
개요
- K개의 분할 영역(군집)을 결정하는 방법
- 거리 함수(Distance Function)를 기반으로 각 데이터를 군집화
수행 과정
(1) 군집 개수 K를 설정하고 각 군집의 중심(centroid)을 초기화
(2) 각 데이터를 가장 가까운 중심점의 군집에 할당
(3) 새로 할당된 데이터를 기준으로 각 군집의 중심을 재계산
(4) 중심점 변화가 없으면 종료, 변화가 있으면 (2)단계로 반복
'Hello World > 빅데이터전문가' 카테고리의 다른 글
9차시 (데이터 마이닝) (0) | 2025.10.09 |
---|---|
8차시 (데이터 통계 분석 (2)) (0) | 2025.10.09 |
7차시 (데이터 통계 분석 (1)) (0) | 2025.10.08 |
6차시 (빅데이터 분석 도구 R (3)) (0) | 2025.10.06 |
5차시 (빅데이터 분석 도구 R (2)) (0) | 2025.09.30 |