Hello World/빅데이터전문가

7차시 (데이터 통계 분석 (1))

혼복필 2025. 10. 8. 01:16
728x90
SMALL

[1] 확률과 통계 이론

1. 통계(Statistics)

 

정의

- 표본을 통하여 모집단을 추정하기 위한 학문

빅데이터와 관계

- 표본(≃데이터)을 수집하고 분석하는 고전 과정

 

빅데이터의 기반 학문

모집단(Population)

- 정보를 얻고자 하는 목표 대상의 전체 집단

표본(Sample)

- 모집단의 일부이며, 관찰하여 획득한 데이터

모집단과 표본의 관계

- 모집단은 전수조사를 통하여 파악 가능하지만 비효율적

- 표본을 통하여 모집단의 정보를 추정

표본의 원천(Source)

- 정부, 공공기관 등의 데이터 수집

- 실험을 통한 데이터 획득

- 설문조사 등을 통한 데이터 획득

- 사물, 객체, 현상의 관찰을 통한 데이터 획득

 

데이터 유형

범주 데이터(Categorical Data)
: 데이터의 범주(Category)를 사전에 정의하고 특성을 분류한 데이터
예시) 남녀 성별, 직업, 시/군/구 등 거주구역

수치 데이터(Numerical Data)
: 측정하여 숫자의 형태로 획득한 데이터
예시) 키, 몸무게, 온도, 습도, 물품의 가격

 

통계의 분류

기술 통계(Descriptive Statistics)
: 표본을 수집하고 정리 및 요약하여 의미 있는 정보를 추출

추측 통계(Inferential Statistics)
: 표본을 분석하여 모집단의 정보를 추측하고 품질을 향상

통계 자료의 요약

도수분포표(Frequency Distribution Table)
: 구간/범주별 표본의 출현 빈도수를 표현한 표

히스토그램(Histogram)
: 구간/범주별 빈도수를 시각적으로 표현한 그래프

 

통계 자료의 분석

산술평균(Mean) : 표본의 합을 표본의 수로 나눈 값

중앙값(Median) : 크기 순으로 나열했을 때 중앙에 위치한 값

최빈값(Mode) : 가장 자주 출현하는 값

범위(Range) : 최대값과 최소값의 차이

분산(Variance) : 평균과의 차이를 제곱해 평균낸 값

표준편차(Standard Deviation) : 분산의 제곱근으로 데이터의 흩어짐 정도를 나타냄

 

2. 확률(Probability)

 

정의

- 모집단의 정보가 있을 때, 특정 사건이 발생할 비율을 표현
예시) 주사위를 무한히 던졌을 때 3이 나오는 비율

필요성

- 사건의 일반화 및 경향 파악

- 미래에 대한 예측 가능성 향상

확률의 유형

- 단순 확률(Simple Probability) : 한 가지 사건이 발생할 확률

- 결합 확률(Joint Probability) : 두 가지 이상 사건이 동시에 발생할 확률

- 조건부 확률(Conditional Probability) : 특정 사건이 발생한 상태에서 또 다른 사건이 발생할 확률

통계와 확률의 차이

통계 : 모집단의 정보가 없어 표본을 통해 추정 (ex. 주사위를 100번 던져 3의 빈도를 측정)

확률 : 모집단의 정보가 있어 발생 비율을 직접 계산 (ex. 주사위를 무한히 던져 3의 비율을 구함)

 

[2] 확률 분포

1. 확률 변수(Random Variable)

 

정의

- 2개 이상의 값을 가질 수 있는 변수

종류

- 이산 확률 변수 : 값이 범주화된 경우

- 연속 확률 변수 : 값이 연속적인 경우

 

2. 확률 분포(Probability Distribution)

 

정의

- 데이터가 출현할 확률의 분포

필요성

- 데이터 출현 정도를 일반화하여 미래 예측 가능

- 표본 내 확률 변수를 바탕으로 모집단의 확률 분포 추정 가능

확률 분포의 종류

이산확률분포(Discrete Probability Distribution)
: 이산 확률 변수의 확률 분포, 확률 질량 함수(PMF)로 표현

연속확률분포(Continuous Probability Distribution)
: 연속 확률 변수의 확률 분포, 확률 밀도 함수(PDF)로 표현

 

기댓값(Expectation)

- 확률 데이터가 집중되는 경향을 대표하는 값

∑(확률 변수 × 확률)

분산(Variance)

- 확률 변수가 기댓값에서 벗어난 정도

∑(확률 변수 - 기댓값)² × 확률

표준편차(Standard Deviation)

- 분산의 제곱근으로, 기댓값 대비 분포 정도를 표현

 

3. 정규 분포(Normal Distribution)

 

정의

- 평균과 표준편차를 기반으로 한 연속 확률 분포

- 중심극한정리에 근거해 평균은 정규 분포에 근접하는 성질을 가짐

특성

- 절대근사 가능

- 평균과 표준편차가 주어지면 엔트로피(무질서도)가 최대

- 평균을 중심으로 좌우 대칭

- 중앙값의 확률이 최대

 

[3] 모집단의 추정

1. 추정 이론(Estimation Theory)

 

정의

- 표본을 바탕으로 인자(Parameter)를 추정하는 학문 (통계학·신호처리 분야)

필요성

- 한정된 데이터(표본)만으로 최적의 추정 방법(추정량)을 적용 가능

추정 방법론 및 추정량

- MLE (Maximum Likelihood Estimation) : 사전 정보 없이 성능 최대화

- MAP (Maximum A Posteriori) : 사전 정보 기반 성능 최대화

- 최소제곱법 (Least Squares) : 오차 제곱을 최소화

- MMSE (Minimum Mean Squared Error) : 평균 제곱 오차 최소화

- 칼만 필터 (Kalman Filter) : 이상치가 포함된 선형 데이터의 인자 추정

 

2. 모집단의 추정(Estimating Population)

 

정의

- 표본의 정보를 바탕으로 모집단의 평균·비율 등을 추정

- 추정 이론의 한 분야

필요성

- 모집단 전체 조사 시 비효율적

- 표본을 통해 정확하게 추정 시 비용 절감 및 효율 향상

분산의 종류

모분산(Population Variance) : 모집단으로부터 구한 분산

표본분산(Sample Variance) : 표본으로부터 구한 분산

표준편차의 종류

모표준편차(Population Std. Dev.) : 모집단 기반

표본표준편차(Sample Std. Dev.) : 표본 기반

모집단 평균 추정

- 충분히 큰 표본 개수 n, 표본평균 x̄, 표준편차 s, 유의수준 α(신뢰수준 1-α) 사용

- 신뢰구간 계산식
x̄ - Zα/2 * s/√n ≤ μ ≤ x̄ + Zα/2 * s/√n

모집단 비율 추정

- 충분히 큰 표본 개수 n(=빅데이터), 표본의 비율 p̄, 유의수준 α(신뢰수준 1-α) 사용

- 신뢰구간 계산식
p̄ - Zα/2 × √( p̄(1 - p̄) / n ) ≤ p ≤ p̄ + Zα/2 × √( p̄(1 - p̄) / n )

728x90
LIST