Hello World/빅데이터전문가

9차시 (데이터 마이닝)

혼복필 2025. 10. 9. 17:16
728x90
SMALL

[1] 데이터 마이닝의 정의와 이해
1. 데이터 마이닝의 정의

정의  
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 작업  
- 데이터베이스 내 지식 발견 KDD(Knowledge Discovery in Databases)
빅데이터 시대의 의미  
- 대규모 데이터로부터 의미를 찾아내는 데 있어 중요도가 급증  

2. 데이터 마이닝의 이해

데이터 마이닝의 적용 분야  
- 분류(Classification) : 일정한 집단에 대한 정의를 통해 데이터를 분류 및 구분  
- 군집화(Clustering) : 유사한 특성을 가진 데이터들을 군집(Cluster)으로 묶음 (사전 정의 없음)  
- 연관성(Association) : 동시에 발생한 사건 간의 관계를 정의  
- 연속성(Sequence) : 특정 기간에 걸쳐 발생하는 관계를 규명 (시간적 특성 고려)  
- 예측(Prediction) : 과거 데이터의 패턴을 바탕으로 미래 데이터 형태를 예측  

[2] 데이터 마이닝 방법론
1. 데이터 마이닝 절차

(1) 프로젝트의 목적과 적용 가능성 확인  
- 일회성 프로젝트 : 프로젝트의 목적 수립  
- 연속성 프로젝트 : 적용 가능성 검토  

(2) 분석에 사용할 데이터 수집  
- 데이터베이스에서 무작위 표본 추출  
- 내부 데이터와 외부 데이터 수집  
- 수집 절차  
  · 수집 데이터 선정  
  · 세부 계획 수립  
  · 테스트 수집 후 본 수집 진행  

(3) 데이터 전처리  
- 데이터의 조건을 검증하고 정제  
- 산점도, 행렬표 등의 그래프를 이용하여 이상치 탐색  
- 변수 정의, 측정단위, 기간의 일관성 확인  
- 고려사항  
  · 결측치 처리 방법 검토  
  · 변수 값의 범위가 합리적인지 확인  
  · 극단치(최대/최소)의 존재 여부 확인  

(4) 데이터를 축소하고 분할  
- 불필요한 변수를 제거하고, 분석 가능한 형태로 변환  
- 새로운 변수를 생성  
- 데이터 집합 분할  
  · 학습용 데이터(Training)  
  · 평가용 데이터(Test, Evaluation)  
  · 검증용 데이터(Verification)  

(5) 데이터 마이닝 기법 선택  
- 프로젝트 목적에 맞는 분석 유형 결정  
- 주요 기법  
  · 분산분석, 상관분석, 회귀분석 등 고전 통계 모델  
  · 신경망(Neural Network) 기반 딥러닝 분석 모델  
  · 계층적 군집 분석(Hierarchical Clustering) 등  

(6) 데이터 마이닝 수행  
- 결정된 절차에 따라 데이터 마이닝을 수행  
- 다양한 변인을 적용하고 결과를 평가  
- 평가용 데이터를 활용하여 성능 개선  
- 결과 모델을 기반으로 시험 적용  

2. 학습 방법론

- 지도학습(Supervised Learning)  
  : 입력과 출력이 모두 정의된 데이터를 이용해 예측모델을 학습  
- 반지도학습(Semi-Supervised Learning)  
  : 지도학습과 자율학습을 결합, 일부 데이터는 출력값이 주어지고 나머지는 자율적으로 학습  
- 자율학습(Unsupervised Learning)  
  : 출력 변수가 명확하지 않은 상태에서 입력 데이터의 패턴을 스스로 학습  

[3] 데이터 마이닝 적용 사례

1. 공공시스템  
- 국세청 탈세 방지 시스템에 적용  
- 사기 방지, 소셜 네트워크 분석, 지능형 감지 시스템 구축  
- 세금 누락 및 불필요한 환급 방지 효과  
- 탈세자 감소 및 범죄 예방 가능  

2. GPS 시스템  
- 자동차 센서 데이터(GPS 등)를 이용해 교통 정보 수집  
- 지능형 교통 정보 시스템(ITS) 구축 가능  
- 실시간 교통 공유 및 최적 경로 안내 서비스  
- 에너지 낭비 감소 및 교통 효율성 향상  

3. 보건/의료  
- 유전자 정보를 활용한 질병 연구 및 진단  
- 난치병·불치병 관련 신치료제 개발  
- IT 기술과 결합하여 치료 성공률 향상  

4. 제조/물류/마케팅  
- 소비자 니즈 예측을 통한 제품 사전 생산 및 유통  
- 제조·물류·마케팅 비용 최소화  
- 제품의 소비자 도달 시간 단축  

 

728x90
LIST