[1] 데이터 마이닝의 정의와 이해
1. 데이터 마이닝의 정의
정의
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 작업
- 데이터베이스 내 지식 발견 KDD(Knowledge Discovery in Databases)
빅데이터 시대의 의미
- 대규모 데이터로부터 의미를 찾아내는 데 있어 중요도가 급증
2. 데이터 마이닝의 이해
데이터 마이닝의 적용 분야
- 분류(Classification) : 일정한 집단에 대한 정의를 통해 데이터를 분류 및 구분
- 군집화(Clustering) : 유사한 특성을 가진 데이터들을 군집(Cluster)으로 묶음 (사전 정의 없음)
- 연관성(Association) : 동시에 발생한 사건 간의 관계를 정의
- 연속성(Sequence) : 특정 기간에 걸쳐 발생하는 관계를 규명 (시간적 특성 고려)
- 예측(Prediction) : 과거 데이터의 패턴을 바탕으로 미래 데이터 형태를 예측
[2] 데이터 마이닝 방법론
1. 데이터 마이닝 절차
(1) 프로젝트의 목적과 적용 가능성 확인
- 일회성 프로젝트 : 프로젝트의 목적 수립
- 연속성 프로젝트 : 적용 가능성 검토
(2) 분석에 사용할 데이터 수집
- 데이터베이스에서 무작위 표본 추출
- 내부 데이터와 외부 데이터 수집
- 수집 절차
· 수집 데이터 선정
· 세부 계획 수립
· 테스트 수집 후 본 수집 진행
(3) 데이터 전처리
- 데이터의 조건을 검증하고 정제
- 산점도, 행렬표 등의 그래프를 이용하여 이상치 탐색
- 변수 정의, 측정단위, 기간의 일관성 확인
- 고려사항
· 결측치 처리 방법 검토
· 변수 값의 범위가 합리적인지 확인
· 극단치(최대/최소)의 존재 여부 확인
(4) 데이터를 축소하고 분할
- 불필요한 변수를 제거하고, 분석 가능한 형태로 변환
- 새로운 변수를 생성
- 데이터 집합 분할
· 학습용 데이터(Training)
· 평가용 데이터(Test, Evaluation)
· 검증용 데이터(Verification)
(5) 데이터 마이닝 기법 선택
- 프로젝트 목적에 맞는 분석 유형 결정
- 주요 기법
· 분산분석, 상관분석, 회귀분석 등 고전 통계 모델
· 신경망(Neural Network) 기반 딥러닝 분석 모델
· 계층적 군집 분석(Hierarchical Clustering) 등
(6) 데이터 마이닝 수행
- 결정된 절차에 따라 데이터 마이닝을 수행
- 다양한 변인을 적용하고 결과를 평가
- 평가용 데이터를 활용하여 성능 개선
- 결과 모델을 기반으로 시험 적용
2. 학습 방법론
- 지도학습(Supervised Learning)
: 입력과 출력이 모두 정의된 데이터를 이용해 예측모델을 학습
- 반지도학습(Semi-Supervised Learning)
: 지도학습과 자율학습을 결합, 일부 데이터는 출력값이 주어지고 나머지는 자율적으로 학습
- 자율학습(Unsupervised Learning)
: 출력 변수가 명확하지 않은 상태에서 입력 데이터의 패턴을 스스로 학습
[3] 데이터 마이닝 적용 사례
1. 공공시스템
- 국세청 탈세 방지 시스템에 적용
- 사기 방지, 소셜 네트워크 분석, 지능형 감지 시스템 구축
- 세금 누락 및 불필요한 환급 방지 효과
- 탈세자 감소 및 범죄 예방 가능
2. GPS 시스템
- 자동차 센서 데이터(GPS 등)를 이용해 교통 정보 수집
- 지능형 교통 정보 시스템(ITS) 구축 가능
- 실시간 교통 공유 및 최적 경로 안내 서비스
- 에너지 낭비 감소 및 교통 효율성 향상
3. 보건/의료
- 유전자 정보를 활용한 질병 연구 및 진단
- 난치병·불치병 관련 신치료제 개발
- IT 기술과 결합하여 치료 성공률 향상
4. 제조/물류/마케팅
- 소비자 니즈 예측을 통한 제품 사전 생산 및 유통
- 제조·물류·마케팅 비용 최소화
- 제품의 소비자 도달 시간 단축
'Hello World > 빅데이터전문가' 카테고리의 다른 글
10차시 (정형 데이터 마이닝) (0) | 2025.10.09 |
---|---|
8차시 (데이터 통계 분석 (2)) (0) | 2025.10.09 |
7차시 (데이터 통계 분석 (1)) (0) | 2025.10.08 |
6차시 (빅데이터 분석 도구 R (3)) (0) | 2025.10.06 |
5차시 (빅데이터 분석 도구 R (2)) (0) | 2025.09.30 |