[1] 확률과 통계 이론
1. 통계(Statistics)
정의
- 표본을 통하여 모집단을 추정하기 위한 학문
빅데이터와 관계
- 표본(≃데이터)을 수집하고 분석하는 고전 과정
빅데이터의 기반 학문
모집단(Population)
- 정보를 얻고자 하는 목표 대상의 전체 집단
표본(Sample)
- 모집단의 일부이며, 관찰하여 획득한 데이터
모집단과 표본의 관계
- 모집단은 전수조사를 통하여 파악 가능하지만 비효율적
- 표본을 통하여 모집단의 정보를 추정
표본의 원천(Source)
- 정부, 공공기관 등의 데이터 수집
- 실험을 통한 데이터 획득
- 설문조사 등을 통한 데이터 획득
- 사물, 객체, 현상의 관찰을 통한 데이터 획득
데이터 유형
범주 데이터(Categorical Data)
: 데이터의 범주(Category)를 사전에 정의하고 특성을 분류한 데이터
예시) 남녀 성별, 직업, 시/군/구 등 거주구역
수치 데이터(Numerical Data)
: 측정하여 숫자의 형태로 획득한 데이터
예시) 키, 몸무게, 온도, 습도, 물품의 가격
통계의 분류
기술 통계(Descriptive Statistics)
: 표본을 수집하고 정리 및 요약하여 의미 있는 정보를 추출
추측 통계(Inferential Statistics)
: 표본을 분석하여 모집단의 정보를 추측하고 품질을 향상
통계 자료의 요약
도수분포표(Frequency Distribution Table)
: 구간/범주별 표본의 출현 빈도수를 표현한 표
히스토그램(Histogram)
: 구간/범주별 빈도수를 시각적으로 표현한 그래프
통계 자료의 분석
산술평균(Mean) : 표본의 합을 표본의 수로 나눈 값
중앙값(Median) : 크기 순으로 나열했을 때 중앙에 위치한 값
최빈값(Mode) : 가장 자주 출현하는 값
범위(Range) : 최대값과 최소값의 차이
분산(Variance) : 평균과의 차이를 제곱해 평균낸 값
표준편차(Standard Deviation) : 분산의 제곱근으로 데이터의 흩어짐 정도를 나타냄
2. 확률(Probability)
정의
- 모집단의 정보가 있을 때, 특정 사건이 발생할 비율을 표현
예시) 주사위를 무한히 던졌을 때 3이 나오는 비율
필요성
- 사건의 일반화 및 경향 파악
- 미래에 대한 예측 가능성 향상
확률의 유형
- 단순 확률(Simple Probability) : 한 가지 사건이 발생할 확률
- 결합 확률(Joint Probability) : 두 가지 이상 사건이 동시에 발생할 확률
- 조건부 확률(Conditional Probability) : 특정 사건이 발생한 상태에서 또 다른 사건이 발생할 확률
통계와 확률의 차이
통계 : 모집단의 정보가 없어 표본을 통해 추정 (ex. 주사위를 100번 던져 3의 빈도를 측정)
확률 : 모집단의 정보가 있어 발생 비율을 직접 계산 (ex. 주사위를 무한히 던져 3의 비율을 구함)
[2] 확률 분포
1. 확률 변수(Random Variable)
정의
- 2개 이상의 값을 가질 수 있는 변수
종류
- 이산 확률 변수 : 값이 범주화된 경우
- 연속 확률 변수 : 값이 연속적인 경우
2. 확률 분포(Probability Distribution)
정의
- 데이터가 출현할 확률의 분포
필요성
- 데이터 출현 정도를 일반화하여 미래 예측 가능
- 표본 내 확률 변수를 바탕으로 모집단의 확률 분포 추정 가능
확률 분포의 종류
이산확률분포(Discrete Probability Distribution)
: 이산 확률 변수의 확률 분포, 확률 질량 함수(PMF)로 표현
연속확률분포(Continuous Probability Distribution)
: 연속 확률 변수의 확률 분포, 확률 밀도 함수(PDF)로 표현
기댓값(Expectation)
- 확률 데이터가 집중되는 경향을 대표하는 값
∑(확률 변수 × 확률)
분산(Variance)
- 확률 변수가 기댓값에서 벗어난 정도
∑(확률 변수 - 기댓값)² × 확률
표준편차(Standard Deviation)
- 분산의 제곱근으로, 기댓값 대비 분포 정도를 표현
3. 정규 분포(Normal Distribution)
정의
- 평균과 표준편차를 기반으로 한 연속 확률 분포
- 중심극한정리에 근거해 평균은 정규 분포에 근접하는 성질을 가짐
특성
- 절대근사 가능
- 평균과 표준편차가 주어지면 엔트로피(무질서도)가 최대
- 평균을 중심으로 좌우 대칭
- 중앙값의 확률이 최대
[3] 모집단의 추정
1. 추정 이론(Estimation Theory)
정의
- 표본을 바탕으로 인자(Parameter)를 추정하는 학문 (통계학·신호처리 분야)
필요성
- 한정된 데이터(표본)만으로 최적의 추정 방법(추정량)을 적용 가능
추정 방법론 및 추정량
- MLE (Maximum Likelihood Estimation) : 사전 정보 없이 성능 최대화
- MAP (Maximum A Posteriori) : 사전 정보 기반 성능 최대화
- 최소제곱법 (Least Squares) : 오차 제곱을 최소화
- MMSE (Minimum Mean Squared Error) : 평균 제곱 오차 최소화
- 칼만 필터 (Kalman Filter) : 이상치가 포함된 선형 데이터의 인자 추정
2. 모집단의 추정(Estimating Population)
정의
- 표본의 정보를 바탕으로 모집단의 평균·비율 등을 추정
- 추정 이론의 한 분야
필요성
- 모집단 전체 조사 시 비효율적
- 표본을 통해 정확하게 추정 시 비용 절감 및 효율 향상
분산의 종류
모분산(Population Variance) : 모집단으로부터 구한 분산
표본분산(Sample Variance) : 표본으로부터 구한 분산
표준편차의 종류
모표준편차(Population Std. Dev.) : 모집단 기반
표본표준편차(Sample Std. Dev.) : 표본 기반
모집단 평균 추정
- 충분히 큰 표본 개수 n, 표본평균 x̄, 표준편차 s, 유의수준 α(신뢰수준 1-α) 사용
- 신뢰구간 계산식
x̄ - Zα/2 * s/√n ≤ μ ≤ x̄ + Zα/2 * s/√n
모집단 비율 추정
- 충분히 큰 표본 개수 n(=빅데이터), 표본의 비율 p̄, 유의수준 α(신뢰수준 1-α) 사용
- 신뢰구간 계산식
p̄ - Zα/2 × √( p̄(1 - p̄) / n ) ≤ p ≤ p̄ + Zα/2 × √( p̄(1 - p̄) / n )
'Hello World > 빅데이터전문가' 카테고리의 다른 글
9차시 (데이터 마이닝) (0) | 2025.10.09 |
---|---|
8차시 (데이터 통계 분석 (2)) (0) | 2025.10.09 |
6차시 (빅데이터 분석 도구 R (3)) (0) | 2025.10.06 |
5차시 (빅데이터 분석 도구 R (2)) (0) | 2025.09.30 |
4차시 (빅데이터 분석 도구 R (1)) (0) | 2025.09.27 |