Hello World/빅데이터전문가

8차시 (데이터 통계 분석 (2))

혼복필 2025. 10. 9. 15:48
728x90
SMALL

[1] 분산분석과 상관분석
1. 분산분석(ANOVA)

정의
- 통계학에서 두 개 이상의 다수의 집단을 비교할 때 F분포를 이용하여 가설검정을 하는 방법
- ANOVA = ANalysis Of VAriance
역사
- 통계학자 로날드 피셔(R.A. Fisher)에 의해 1920년대~1930년대에 걸쳐 작성

F분포
정의
- 분산의 비교를 통하여 얻어지는 분포 비율
- F = (군간변동) / (군내변동)
특성
- 집단 간의 동질성을 가정하고 분석
- 군내변동이 크면 → 집단 간 평균차이 확인 어려움
- 분산 차이가 큰 경우 → 유발 원인 제거 필요

F분포의 가정
(1) 정규성 가정
- 모집단에서 변인 Y는 정규분포를 따름
- 모집단에서 변인 Y의 평균은 다를 수 있음

(2) 분산의 동질성 가정
- Y의 모집단 분산은 각 모집단에서 동일함
- σ₁² = σ₂²

(3) 관찰의 독립성 가정
- 각각의 모집단에서 크기가 n₁, n₂인 표본이 독립적으로 표집됨

F분포의 계산
F 통계치
- 모집단 분산의 추정치의 비율 F = s₁² / s₂² 를 계산
- F 값은 특정한 이론적 확률분포인 F분포를 따름

분산분석의 모형
- 고정효과 모형 : 수준의 선택이 기술적으로 정해지고 각 수준이 기술적 의미를 가진 효과 인자
- 무선효과 모형 : 수준의 선택이 임의로 이루어지며 각 수준이 기술적 의미를 가지지 않은 효과 인자
- 혼합효과 모형 : 고정효과 인자와 무선효과 인자가 함께 사용된 경우

분산분석의 종류
- 일원분산분석 : 종속변인이 1개이며 독립변인 집단도 1개
- 이원분산분석 : 독립변인의 수가 2개 이상일 때 집단 비교
- 다원변량분산분석 : 두 개 이상 종속변인이 관계된 상황에 적용
- 공분산분석 : 특정한 독립변인 위주로 분석하고 다른 독립변인은 통제변수로 설정 분석

2. 상관분석(Correlation Analysis)

정의
- 두 변수 간의 선형적 관계를 분석하는 방법
- 두 변수는 독립적이거나 상관될 수 있음
- 두 변수 간의 강도를 상관관계(Correlation, Correlation coefficient)라 함

상관분석의 가정
- 선형성 : 두 변인 X, Y의 직선적인 정도, 선점도를 사용
- 동변량성 : X의 값에 관계없이 Y의 흩어진 정도가 같은 것(이분산성의 반대어)
- 정규분포성 : 두 변인의 측정치 분포는 모집단에서 정규분포
- 무선독립표본 : 모집단에서 표본을 추출할 때 표본대상이 확률적으로 선정되는 것

상관분석의 분석방법
(1) 피어슨 상관계수(Pearson Correlation Coefficient)
- 두 변수 간의 관련성을 구하기 위해 보편적으로 이용
- r = (X와 Y의 변화 정도) / (X와 Y 각각 변하는 정도)
- r의 값에 따라 다음과 같이 해석
  : +1 = X와 Y가 완전 동일
  : 0 = X와 Y가 전혀 다른 경우
  : -1 = X와 Y가 반대방향으로 동일
- r² = 결정계수(Coefficient of Determination)

(2) 스피어만 상관계수(Spearman Correlation Coefficient)
- 데이터가 서열척도(순위값)인 경우의 상관계수
- 데이터를 작은 것부터 차례로 순위를 매겨 서열 순서를 바꾼 뒤 순위를 이용하여 상관계수 계산
- 자료에 이상점이 있거나 표본 크기가 작을 때 유용
- 상관계수값에 따른 분류
  : +1 = 두 변수 안의 순위가 완전히 일치
  : -1 = 두 변수 안의 순위가 역순인 경우

(3) 크론바흐 알파 계수 신뢰도(Cronbach’s Alpha)
- 검사의 내적 일관성을 나타내는 값 α(알파)를 계산
- 한 검사 내에서 변수들 간의 평균 상관관계에 근거하여 검사 문항들이 동질적 요소로 구성되어 있는지를 분석
- 동일한 개념인 경우 → 결과가 비슷
- 동일하지 않은 개념인 경우 → 결과가 상이

[2] 회귀분석
1. 회귀분석(Regression Analysis)

정의
- 관찰된 연속형 변수들 간의 모형을 구한 뒤 적합도를 측정하는 분석 방법

회귀분석의 가정
- 오차항은 모든 독립변수에 대하여 동일 분산을 가짐
- 오차항의 평균(기댓값)은 0
- 수집된 데이터의 확률 분포는 정규분포를 이룸
- 독립변수 간에는 상관관계가 없어야 함
- 시간에 따라 수집된 데이터는 잡음(Noise) 영향이 없음

[3] 시계열 데이터의 분석
1. 시계열 데이터(Time Series)

정의
- 일정 간격으로 배치된 데이터의 수열

시계열 해석
- 시계열을 해석하고 이해하는 방법
- 시계열이 어떠한 법칙에서 생성되는지 밝혀내는 작업
시계열 예측
- 시계열을 기반으로 수학적 모델을 구축하고 미래에 발생하는 시계열의 형태를 예측하는 작업
- 공학, 과학, 금융시장 등에서 사용

2. 시계열 데이터의 분석 방법론

시계열 데이터 분석
- Autoregressive (AR) 모델
- Integrated (I) 모델
- Moving Average (MA) 모델

Autoregressive (AR) 모델
- 자기상관성(Autocorrelation) 정보를 기반
- 어떤 변수의 이전 값이 이후 값에 영향을 미치는 상황을 모델링
  ex) 이전의 값이 감소 → 이후의 값이 감소
- AR 모형
x(t) = {a⋅x(t-1) + c} + u⋅e(t)

Moving Average (MA) 모델
- 어떤 변수의 평균값이 지속적으로 증가하거나 감소하는 경향을 모델링
  ex) 봄에서 여름이 되면 전기 수요가 대체로 증가
- MA 모형
x(t) = {a⋅e(t-1) + c} + u⋅e(t)

- ARMA 모델
- 기존의 AR 모델과 MA 모델을 통합하여 다양한 통합 모델이 도출될 수 있음
- ARMA 모델
x(t) = a⋅x(t-1) + b⋅e(t-1) + c + u⋅e(t)

Integrated (I) 모델
- AR 모델, MA 모델 외에 통합 모델을 고려
- 과거의 데이터뿐만 아니라 추세(Momentum)까지 반영한 모델
- ARIMA 모델
a⋅{x(t) - x(t-1)} = b⋅x(t-1) + c⋅e(t-1) + d + u⋅e(t)

 

728x90
LIST