Hello World/빅데이터전문가

10차시 (정형 데이터 마이닝)

혼복필 2025. 10. 9. 17:39
728x90
SMALL

[1] 분류 분석
1. 분류(Classification)

정의  
- 데이터가 어느 그룹에 속하는지를 예측하는 데 사용하는 데이터 기법  
- 군집화(Clustering)와 유사하나, 각 계급이 어떻게 정의되는지 미리 알아야 함  

2. 분류 방법론

- K 최근접 이웃(K-Nearest Neighbor, KNN) : 인접한 K개의 이웃을 통하여 데이터가 소속되는 그룹을 결정  
- 의사결정나무(Decision Tree) : 항목에 대한 관측값과 목표값을 연결하기 위한 트리 구조를 결정  
- 베이지안 정리(Bayesian Theorem) : 불확실성 하에서 분류 문제를 조건부 확률로 해결하는 방법  
- 인공 신경망(Artificial Neural Network, ANN) : 생물학의 신경망 구조를 모방하여 모델을 구축하는 방법  
- 지지 벡터 기계(Support Vector Machine, SVM) : 주어진 데이터로부터 새로운 데이터의 소속 그룹을 판단하는 모델  

K 최근접 이웃(K-Nearest Neighbor, KNN)
개요  
- 인접한 K개의 이웃을 통하여 데이터가 소속되는 그룹을 결정  
특징  
- 잡음 또는 무관한 특징이 존재하면 정확성이 감소  
- 변수의 크기가 중요성과 일치하지 않으면 성능 저하  
- 적절한 K값을 선택하는 것이 중요  

의사결정나무(Decision Tree)
개요  
- 결정 트리 학습법이라고도 하며, 관측값과 목표값 간의 관계를 트리 구조로 모델링  
특징  
- 지도학습(Supervised Learning) 기반의 대표적인 분류 기법  
- 분류 트리(Classification Tree), 회귀 트리(Regression Tree) 등 존재  
- 랜덤 포레스트(Random Forest) 등 앙상블 기법으로 분류 속도 및 정확도 향상 가능  

베이지안 정리(Bayesian Theorem)
개요  
- 불확실성 하에서 의사결정 문제를 확률론적으로 다루는 방법  
특징  
- 조건부 확률(Conditional Probability) 모델에 기반  
- 지도학습 환경에서 효율적인 훈련 가능  
- 최대우도방법(MLE, Maximum Likelihood Estimation)을 통해 모수 추정 수행  
- 복잡한 실제 상황에서도 높은 신뢰성 검증됨  

인공 신경망(Artificial Neural Network, ANN)
개요  
- 기계학습(Machine Learning)과 인지과학에서 생물학적 신경망 구조를 모방한 통계학적 학습 알고리즘  
특징  
- 지도, 반지도, 자율학습 모두 적용 가능  
- 역전파 기법(Backpropagation)을 기반으로 한 경사하강법(Gradient Descent) 사용  
- 유전 알고리즘(Genetic Algorithm) 등 다양한 학습기법과 결합 가능  

지지 벡터 기계(Support Vector Machine, SVM)
개요  
- 유한 차원 공간에서 데이터를 분류하는 최적의 초평면(Hyperplane)을 모델링  
특징  
- 선형 SVM을 이용해 최적 초평면 모델 구성 가능  
- 새 표본의 분류 성능 향상을 위해 소프트 마진(Soft Margin) 적용  
- 커널 트릭(Kernel Trick)을 이용하여 비선형 데이터도 분류 가능  

[2] 군집 분석
1. 군집(Clustering)

정의  
- 데이터 마이닝 기법 중 하나로, 데이터의 특성을 고려하여 군집을 정의하고 대표점을 찾는 작업  
의의  
- 데이터를 효율적으로 분류하는 데 도움  
- 새로운 정보나 패턴을 발견할 수 있는 단서 제공  

2. 군집의 구분

계층적 군집화(Hierarchical Clustering)  
- 각 데이터 점을 하나의 군집으로 설정하고, 거리 기반으로 분할 또는 합병  
- ex) 계통도(Dendrogram)를 이용해 유사성 확인 가능  
분할적 군집화(Partitioning Clustering)  
- 여러 개의 분할 영역을 결정하는 방법  
- 거리 함수 및 평가 함수를 기반으로 수행  
- ex) K-Means 알고리즘  

3. 군집 방법론

계통도(Dendrogram, 덴드로그램)
개요  
- 각 계층에서 군집 간의 유사성을 시각적으로 확인할 수 있음  
흡수 과정(Agglomerative Process)  
- 아래에서 위로 군집을 병합하는 방식  
- N개의 군집이 연속적으로 합쳐져 하나의 군집으로 수렴  
분리 과정(Divisive Process)  
- 위에서 아래로 분할하는 방식  
- 하나의 군집에서 N개의 표본으로 나누어 연속적으로 분리  


K-Means 알고리즘
개요  
- K개의 분할 영역(군집)을 결정하는 방법  
- 거리 함수(Distance Function)를 기반으로 각 데이터를 군집화  
수행 과정  
(1) 군집 개수 K를 설정하고 각 군집의 중심(centroid)을 초기화  
(2) 각 데이터를 가장 가까운 중심점의 군집에 할당  
(3) 새로 할당된 데이터를 기준으로 각 군집의 중심을 재계산  
(4) 중심점 변화가 없으면 종료, 변화가 있으면 (2)단계로 반복  

 

728x90
LIST