-
[ADsP] 3과목 데이터 분석_요약 정리(4.통계분석)ADsP 2021. 2. 27. 20:56반응형
4. 통계분석
4_1. 통계분석의 이해
* 총 조사/전수 조사(census)
- 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용 되지 않는다. (ex. 인구주택 총 조사)
* 표본조사
- 대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다.
- 모집단(population) : 조사하고자 하는 대상 집단 전체
- 원소(element) : 모집단을 구성하는 개체
- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보
- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.
* 표본 추출 방법 4가지
- 표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생한다. (N개의 모집단에서 n개의 표본을 추출하는 경우)
1) 단순랜덤 추출법(simple random sampling) : 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. (비 복원, 복원(추출한 element를 다시 집어넣어 추출하는 경우) 추출)
2) 계통추출법(systematic sampling) : 단순랜덤 추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 (K=N/n) n개의 구간으로 나누고 첫 구간(1, 2, 〮 〮 〮, K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본을 선택한다. 즉, 임의 위치에서 매 k번째 항목을 추출하는 방법이다.
3) 집락추출법(cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법이다. (지역표본추출, 다단계표본추출)
4) 층화추출법(stratified random sampling) : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로, 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법이다. (비례 층화추출법, 불비례 층화추출법)
* 측정(measurement)
- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것이다.
* 측정 방법
1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분)
2) 순서척도(서열척도) : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학년, 신용등급)
3) 구간척도(등각척도) : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료 (온도, 지수)
4) 비율척도 : 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리)
- 질적척도 : 범주형 자료, 숫자들의 크기 차이가 계산되지 않는 척도 (명목척도, 순서척도)
- 양적척도 : 수치형 자료, 숫자들의 크기 차이를 계산 할 수 있는 척도 (구간척도, 비율척도)
- 순서척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다. (예 : 1등이 2등보다 성적이 높다.)
- 구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다.
* 이산형 확률변수
- 0이 아닌 확률 값을 갖는 확률 변수를 셀 수 있는 경우(확률질량함수)
- 이산형 확률변수의 예시 : 동전 2개를 던져서 앞/뒷면이 나오는 경우의 수
1) 베르누이 확률분포(Bernoulli distribution)
- 결과가 2개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등)
2) 이항분포(Binomial distribution)
- 베르누이 시행을 n번 반복했을 때 k번 성공할 확률
3) 기하분포(Geometric distribution)
- 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 x번 실패할 확률
4) 다항분포(Multinomial distribution)
- 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포
5) 포아송분포(Poisson distribution)
- 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포(예 : 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률)
* 연속형 확률변수
- 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수)
1) 균일분포(일양분포, Uniform distribution)
- 모든 확률변수 X가 균일한 확률을 가지는 확률분포 (다트의 확률분포)
2) 정규분포(Normal distribution)
- 평균이 μ 이고, 표준편차가 σ 인 x의 확률밀도함수
- 표준편차가 클 경우 퍼져보이는 그래프가 나타난다.
- Z= X- μ (평균)δ (표준편차)
3) 지수분포(Exponential distribution)
- 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포이다.
예) 전자레인지의 수명시간, 콜센터에 전화가 걸려올 때까지의 시간, 은행에 고객이 내방하는데 걸리는 시간, 정류소에서 버스가 올 때까지의 시간
4) t-분포(t-distribution)
- 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다.
- 표본의 크기가 적을때는 표준정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커져서(30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다.
- 데이터가 연속형일 경우 활용한다..
- 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다.
5) x2-분포(chi-square distribution)
- 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포이다.
- 두 집단 간의 동질성 검정에 활용된다. (범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)
6) F-분포(F-distribution)
- 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포이다.
- 확률변수는 항상 양의 값만 갖고 x2분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.
* 확률표본(random samle)
- 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.
- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.
- 각 관찰 값들은 서로 독립적이며 동일한 분포를 갖는다.
* 추정
- 표본으로부터 미지의 모수를 추측하는 것이다.
- 추정은 점추정(point estimation)과 구간측정(interval estimation)으로 구분된다,
1) 점추정(point estimation)
- ‘모수가 특정한 값일 것’이라고 추정하는 것이다.
- 표본의 평균, 중위수, 최빈값 등을 사용한다.
2) 구간추정(interval estimation)
- 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것이다.
- 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준(confidence interval))가 주어져야 한다.
* 가설검정
- 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다.
- 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.
- 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정한다.
가) 귀무가설(null hypothesis, H0) : ‘비교하는 값과 차이가 없다, 동일하다’를 기본개념으로 하는 가설
나) 대립가설(alternative hypothesis, H1) : 뚜렷한 증거가 있을 때 주장하는 가설
다) 검정통계량(test statistic) : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준
라) 유의수준(significance level, α ) : 귀무가설을 기각하게 되는 확률의 크기로 ‘귀무가설이 옳은데도 이를 기각하는 확률의 크기’
마) 기각영(critical region, C) : 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 a인 부분 (반대는 채택역(acceptance region))
* 제1종 오류와 제2종 오류
가설검정결과
정확한사실
H0가 사실이라고 판정
H0가 사실이 아니라고 판정
H0가 사실임
올은 결정
제1종 오류(α )
H0가 사실이 아님
제2종 오류(β )
옳은 결정
- 제1종 오류(type l error) : 귀무가설 H0가 옳은데도 귀무가설을 기각하게 되는 오류
- 제2종 오류(type II error) : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류
- P-value : 검정통계량의 귀무가설을 지지하는 정도를 확률로 표현한 것
즉, 귀무가설이 옳다는 가정하에 얻어진 검정통계량보다 더 극단적인 결과가 나올 확률, P-value가 작을수록 귀무가설을 기각하고 커질수록 귀무가설을 채택
* 비모수적 검정
- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법이다.
- 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용한다.
- 관측된 자료의 수가 많지 않거나(30개 미만)자료가 개체간의 서열관계를 나타내는 경우에 이용한다.
- 가정된 분포가 없으므로 가설은 단지 ‘분포의 형태가 동일하다’ 또는 ‘분포의 형태가 동일하지 않다’와 같이 분포의 형태에 대해 설정한다.
- 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정한다.
- 비모수 검정의 예 : 부호검정(sign test), 윌콕슨의 순위합검정(rank sum test), 윌콕슨의 부호순위합검정(Wilcoxon signed rank test), 만-위트니의 U 검정, 런검정(run test), 스피어만의 순위상관계수
4_2. 기초 통계 분석
* 기술통계(Descriptive Statistics)
- 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것이다.
- 자료를 요약하는 기초적 통계를 의미한다.
- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다.
* 분포의 형태에 관한 측도
1) 왜도
- 분포의 비대칭정도를 나타내는 측도이다.
- 왜도가 양수인 경우 최빈값<중앙값<평균 순으로 위치, 왼쪽으로 밀집되어있고 오른쪽으로 긴 꼬리를 갖는 분포
- 왜도가 음수인 경우 평균<중앙값<최빈값 순으로 위치, 오른쪽으로 밀집되어 있고 왼쪽에 긴 꼬리를 갖는 분포
- 왜도가 0인 경우 최빈값=중앙값=평균 순으로 위치, 좌우대칭의 분포
(최빈값 : 자료분포 중에서 가장 빈번히 관찰된 최다도수를 갖는 자료값)
2) 첨도
- 분포의 중심에서 뾰족한 정도를 나타내는 측도이다.
- 첨도가 양수인 경우 표준정규분포보다 더 뾰족함
- 첨도가 음수인 경우 표준정규분포보다 덜 뾰족함
- 첨도가 0인 경우 표준정규분포와 유사한 뾰족함
* R에서 활용되는 대표적 기술통계
head(data명) : 데이터를 기본 6줄 보여주어 데이터가 성공적으로 import되었는지 살펴볼 수 있다.
head(data명, n) : n에 숫자를 지정해주면 n번재 라인까지 살펴볼 수 있다.
summary(data명) : 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다.
mean(data명$column명) : 특정 컬럼의 평균을 알고 싶을 때 사용
median(data명$column명) : 특정 컬럼의 중앙값을 알고 싶을 때 사용
sd(data명$column명) : 특정 컬럼의 표준편차를 알고 싶을 때 사용
var(data명$column명) : 특정 컬럼의 분산을 알고 싶을 때 사용
quantile(data명$column명) : 특정 컬럼의 분위수를 알고 싶을 때 사용
* 편차 : 개별 표본과 평균 값의 차이를 말합니다. 편차의 절대값이 클수록 분산의 크기가 큰 자료라고 볼 수 있습니다.
* 분산 : 편차는 개별 표본에 대해서만 계산되지만, 분산은 전체를 통틀어 하나의 지표로 계산한 값입니다. 분산은 편차에 제곱한 값을 모두 더하여, 데이터의 총 개수로 나눈 값입니다.
* 표준편차 : 표본들이 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 수치입니다. 표준편차가 0에 가까울수록 표본의 값이 평균 근처에 집중되어 있으며, 표준편차가 클수록 표본의 값들이 넓게 퍼져 있음을 의미합니다.
* 분위수 : n개의 데이터를 작은 수에서부터 큰 수의 순으로 늘어놓고, 그것을 k등분했을 때, 나누어진 각 부분의 경계가 되는 수치입니다. k = 4로 하여 보편적으로 사분위수를 많이 사용합니다.
* 인과관계의 이해
종속변수(반응변수, Y) : 다른 변수의 영향을 받는 변수
독립변수(설명변수, X) : 영향을 주는 변수
산점도(scatter plot) : 좌표평면 위에 점들로 표현한 그래프
공분산(covariance)
- 두 확률변수 X, Y 의 방향의 조합(선형성)이다.
- 공분산의 부호만으로 두 변수간의 방향성을 확인할 수 있다. 공분산의 부호가 +이면 두 변수는 양의 방향성, 공분산의 부호가 -이면 두 변수는 음의 방향성을 가진다.
- X, Y 가 서로 독립이면, Cou(X, Y) = 0 이다.
* 상관분석
- 두 변수 간의 관계의 정도를 알아보기 위한 분석방법이다.
- 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다.
- 상관계수가 0이면 상관관계(선형, 직선)가 존재하지 않는다.
* 상관분석의 유형
구분
피어슨
스피어만
개념
- 등간척도 이상으로 측정된 변수들의 상관 관계 측정 방식
- 서열척도인 두 변수들의 상관관계 측정 방식
특징
- 연속형 변수, 정규성 가정
- 대부분 많이 사용
- 순서형 변수, 비모수적 방법
- 순위를 기준으로 상관관계 측정
상관계수
- 피어슨 (적률상관계수)
- 순위상관계수 (로우)
* 상관분석을 위한 R코드
분산 : var(x, y = NULL, na.rm=FALSE)
공분산 : cov(x, y = NULL)
상관관계 : cor(x, y = NULL)
* 평균, 분산, 공분산, 자기공분산
평균 : 주어진 수의 합을 수의 개수로 나눈 값
분산 : 어떤 대상의 흩어진 정도나 상태, 편차 제곱의 평균값
* 편차 : 관측값에서 평균을 뺀 값 (관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.)
* 상관분석의 가설 검정
- 상관계수 r이 0이면 입력변수 x와 출력변수 y사이에는 아무런 관계가 없다. (귀무가설 : r=0, 대립가설 r≠0 )
- t 검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우, 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있게 된다.
4_3. 회귀분석
* 회귀분석의 정의
- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다.
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법이다.
- 독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀분석으로 분석할 수 있다.
* 회귀분석의 변수
영향을 받는 변수(y) : 반응변수(response variable), 종속변수(dependent variable), 결과변수(outcome variable)
영향을 주는 변수(x) : 설명변수(explanatory variable), 독립변수(independent variable), 예측변수(predictor variable)
* 선형회귀분석의 가정
1) 선형성 : 입력변수와 출력변수의 관계가 선형이다. (선형회귀분석에서 가장 중요한 가정)
2) 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다. 잔차플롯(산점도)를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족하게 된다.
3) 독립성 : 입력변수와 오차는 관련이 없다. 자기상관(독립성)을 알아보기 위해 Durbin-Waston 통계량을 사용하며 주로 시계열 데이터에서 많이 활용한다.
4) 비상관성 : 오차들끼리 상관이 없다.
5) 정상성(정규성) : 오차의 분포가 정규분포를 따른다. Q-Q plot, Kolmogolov-Smirnov검정, Shaprio-Wilk검정 등을 활용하여 정규성을 확인한다.
* 그래프를 활용한 선형회귀분석의 가정 검토
1) 선형성 : 선형회귀모형에서는 설명변수(x)와 반응변수(y)가 선형적 관계에 있음이 전제되어야 한다.
2) 등분산성
가) 등분산성을 만족하는 경우
설명변수(x)에 대한 잔차의 산점도를 그렸을 때, 설명변수(x) 값에 관계없이 잔차들의 변동성(분산)이 일정한 형태를 보이면 선형회귀분석의 가정 중 등분산성을 만족한다고 볼 수 있다.
나) 등분산성을 만족하지 못하는 경우
a) 설명변수(x)가 커질수록 잔차의 분산이 줄어드는 이분산의 형태
b) 2차항 설명변수가 필요
c) 새로운 설명변수가 필요
3) 정규성 : Q-Q Plot을 출력했을 때, 잔차가 대각방향의 직선의 형태를 지니고 있으면 잔차는 정규분포를 따른다고 할 수 있다.
* 가정에 대한 검증
1) 단순선형회귀분석
입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인한다.
2) 다중선형회귀분석
선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족하는지 확인해야 한다.
* 단순선형회귀분석
하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다.
회귀식의 용어 설명
Residuals : 잔차 (회귀식에 의해 추정된 값과 실체값(입력값)에 차이)
Min : 최솟값, 1Q : 1사분위수, Median : 중앙값, 3Q : 3사분위수, Max : 최댓값
Coefficients : 모델의 모수 - 절편과 기울기 나열
Estimate : 추정된 계수
Std. Error : 표준오차
t value : t값 점수
Pr : p-값
Residual standard error : 잔차 표준편차
degrees of freedom : 자유도
Multiple R-squared : 결정계수
Adjusted R-squared : 수정된 계수
F-statistic : F 통계량 (수정된 계수보다 큰 값)
p-value : p-값
* 회귀분석에서의 검토사항
1) 회귀계수들이 유의미한가?
해당 계수의 t 통계량의 p- 값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다.
- 회귀계수인 t통계량에 대한 p-값(p-value)
2) 모형이 얼마나 설명력을 갖는가?
결정계수(R2)를 확인한다. 결정계수는 0~1값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.
- 결정계수(Multiple R-squared), Adjusted R-squared
3) 모형이 데이터를 잘 적합하고 있는가?
잔차를 그래프로 그리고 회귀진단을 한다.
4) R에서 회귀분석은 lm함수를 사용하며, 첫 번째 입력 값은 회귀분석 직선식이고, 두 번째는 입력 값은 데이터이다.
* 회귀계수의 추정(최소제곱법, 최소자승법)
측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 잔차제곱이 가장 작은 선을 구하는 것을 의미한다.
* 회귀계수의 검정
- 회귀계수 β 1이 0이면 입력변수 x와 출력 변수 y사이에는 아무런 인과관계가 없다.
- 회귀계수 β 1이 0이면 적합된 추정식은 아무 의미가 없게 된다. (귀무가설 : β 1 = 0,. 대립가설 β 1 ≠ 0)
3) 회귀직선의 적합도 검토
- 결정계수(R2)를 통해 추정된 회귀식이 얼마나 타당한지 검토한다. (결정계수(R2)가 1에 가까울수록 회귀모형이 자료를 잘 설명함)
- 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표이다.
- 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수(R2)가 높아지므로 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있다.
- 이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수(adjusted R2)를 활용한다.
*오차(error)와 잔차(residual)의 차이
- 오차 : 모집단에서 실제값이 회귀선과 비교해 볼 때 나타는 차이(정확치와 관측지의 차이)
- 잔차 : 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이
회귀모형에서 오차항은 측정할 수 없으므로 잔차를 오차항의 관찰값으로 해석하여 오차항에 대한 가정들의 성립 여부를 조사함
* 다중선형회귀분석(다변량회귀분석)
1) 모형의 통계적 유의성
- 모형의 통계적 유의성은 F통계량으로 확인한다.
- 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.
- F통계량이 크면 p-Value가 0.05보다 작아지고 이렇게 되면 귀무가설을 기각한다. 즉, 모형이 유의하다고 결론지을 수 있다. (F-통계량(F-statistic))
2) 회귀계수의 유의성
- 회귀계수의 유의성은 단변량 회귀분석의 회귀계수 유의성 검토와 같이 t통계량을 통해 확인한다.
- 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형을 활용할 수 있다.
3) 모형의 설명력
- 결정계수(R2)나 수정된 결정계수(R2a)를 확인한다.
4) 모형의 적합성
- 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인한다.
5) 데이터가 전제하는 가정을 만족시키는가?
- 선형성, 독립성, 등분산성, 비상관성, 정상성
6) 다중공선성(multicollinearity)
- 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란하다.
- 다중공선성 검사 방법
가) 분산팽창요인(VIF) : 4보다 크면 다중공선성이 존재한다고 볼 수 있고, 10보다 크면 심각한 문제가 있는 것으로 해석할 수 있다.
나) 상태지수 : 10이상이면 문제가 있다고 보고, 30보다 크면 심각한 문제가 있다고 해석할 수 있다.
- 다중선형회귀분석에서 다중공선성의 문제가 발생하면, 문제가 있는 변수를 제거하거나 주성분회귀, 능형회귀 모형을 적용하여 문제를 해결한다.
* 회귀분석의 종류
1) 단순회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선
2) 다중회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형(1차 함수)
3) 로지스틱 회귀 : 종속변수가 범주형(2진변수)인 경우에 적용되며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장할 수 있음
4) 다항회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단 k=1이면 2차 함수 이상)
5) 곡선회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선
6) 비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형
* 최적회귀방정식
1) 설명변수 선택
- 필요한 변수만 상황에 따라 타협을 통해 선택한다.
- y에 영향을 미칠 수 있는 모든 설명변수 x들은 y의 값을 예측하는데 참여한다.
- 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함한다.
2) 모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법이다.
- 모든 가능한 조합의 회귀분석(All possible regression) : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀모형을 선택
3) 단계적 변수선택(Stepwise Variable Selection)
전진선택법(forward selection) : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다.
* 전진선택법은 이해하기 쉽고 변수의 개수가 많은 경우에도 사용 가능합니다. 하지만 변수 값의 작은 변동에도 그 결과가 크게 달라져 안정성이 부족한 단점이 있다.
후진제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때 모형을 선택한다.
* 후진제거법은 전체 변수들의 정보를 이용하는 장점이 있는 반면 변수의 개수가 많은 경우 사용하기 어렵다.
단계선택법(stepwise method) : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다.
* 벌점화된 선택기준
모형의 복잡도에 벌점을 주는 방법으로 AIC 방법과 BIC 방법이 주로 사용된다.
1) 방법
- AIC(Akaike information criterion)
- BIC(Bayesian information criterion)
2) 설명
- 모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택한다.
- 모형선택의 일치성(consistency inselection) : 자료의 수가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최소값을 갖게 되는 성질이다.
- AIC를 활용하는 방법이 보편화된 방법이다.
- 그밖의 벌점화 선택기준으로 RIC(risk inflation criterion), CIC(covariance inflation criterion), DIC(deviation information criterion)가 있다.
4_4. 시계열 분석
* 시계열 자료
- 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다.
- 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용한다.
* 시계열 자료의 종류
1) 비정상성 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료가 이에 해당한다.
2) 정상성 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료이다.
* 정상성 시계열
1) 평균이 일정한 경우
- 모든 시점에 대해 일정한 평균을 가진다.
- 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화할 수 있다.
2) 분산이 일정
- 분산도 시점에 의존하지 않고 일정해야 한다.
- 분산이 일정하지 않을 경우 변환(Transformation)을 통해 정상화할 수 있다.
3) 공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않는다.
* 정상 시계열의 특징
- 정상 시계열은 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다.
- 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 갖는다.
- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다.
* 차분이란?
- 차분은 현시점 자료에서 전 시점 자료를 빼는 것이다.
- 일반차분(regular difference) : 바로 전 시점의 자료를 빼는 방법이다.
- 계절차분(seasonal difference) : 여러 시점 전의 자료를 빼는 방법으로, 주로 계절성을 갖는 자료를 정상화 하는데 사용한다.
* 시계열자료 분석방법
회귀분석(계량경제)방법, Box-Jenkins 방법, 지수평활법, 시계열 분해법 등이 있다.
- 수학적 이론모형 : 회귀분석(계량경제)방법, Box-Jenkins 방법
- 직관적 방법 : 지수평활법, 시계열 분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용
- 장기 예측 : 회귀분석방법 활용
- 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용
* 자료 형태에 따른 시계열자료 분석방법
1) 일반량 시계열분석
- Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등이 있다.
- 시간(t)을 설명변수로 한 회귀모형주가, 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열분석
2) 다중 시계열분석
- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등
- 여러개의 시간(t)에 따른 변수들을 활용하는 시계열 분석
계량경제(econometrics) : 시계열 데이터에 대한 회귀분석(예 : 이자율, 인플레이션이 환율에 미치는 요인)
* 이동평균법
1) 이동평균법의 개념
- 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산한고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법
- 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용됨
- n개의 시계열 데이터를 m기간으로 이동평균하면 n-m_1개의 이동평균 데이터가 생성된다.
2) 이동평균법의 특징
- 간단하고 쉽게 미래를 예측할 수 있으며, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질(quality)가 높음
- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함
- 일반적으로 시계열 자료에 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우에는 짧은 기간(m의 개수를 적음)의 평균을 사용, 반대로 불규칙변동이 심한 경우 긴 기간(m의 개수가 많음)의 평균을 사용함
- 이동평균법에서 가장 중요한 것은 적절한 기간을 사용하는 것, 즉, 적절한 n의 개수를 결정하는 것임
* Box-Jenkins(ARMA)
- 지난 과거 시계열 데이터를 가장 잘 접합시키는 방법론을 제안
- ARMA = AR + MA
- AR : 자기상관성(어떤 변수에 대하여 이전의 값이 이후의 값에 영향을 미치고 있는 상황)을 시계열 모형으로 배열한 것
- MA : 시간이 지날수록 어떠한 변수의 평균값이 지속적으로 증가하거나 감소하는 경향에 대한 이동평균을 - 지난 과거 시계열 데이터를 가장 잘 접합시키는 방법론을 제안
- ARMA = AR + MA
- AR : 자기상관성(어떤 변수에 대하여 이전의 값이 이후의 값에 영향을 미치고 있는 상황)을 시계열 모형으로 배열한 것
- MA : 시간이 지날수록 어떠한 변수의 평균값이 지속적으로 증가하거나 감소하는 경향에 대한 이동평균을
* 지수평활법
1) 지수평활법의 개념
- 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법
2) 지수평활법의 특징
- 단기간에 발생하는 불규칙변동을 평활하는 방법
- 자료의 수가 많고, 안정된 패턴을 보이는 경우일수록 예측 품질이 높음
- 지수평활법에서 가중치의 역할을 하는 것은 지수평활계수이며, 불규칙변동이 큰 시계열의 경우 지수평활계수는 작은 값을, 불규칙변동이 작은 시계열의 경우 큰 값의 지수평활계수를 적용함
- 지수평활계수는 예측오차(실제 곽측치와 예측치 사이의 잔차제곱합)를 비교하여 예측오차가 가장 작은 값을 선택하는 것이 바람직함
- 지수평활계수는 과거로 갈수록 지속적으로 감소함
- 지수평활법은 불규칙변동의 영향을 제거하는 효과가 있으며, 중기 예측 이상에 주로 사용됨
(단, 단순지수 평활법의 경우, 장기추세나 계정변동이 포함된 시계열의 예측에는 적합하지 않음)
* 시계열 분해법
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법
- 시계열 구성요소 : 추세요인, 계절요인, 순환요인, 불규칙요인
* 추세요인(Trend factor) : 자료의 그림을 그렸을 때 그 형태가 오르거나 또는 내리는 추세를 따르는 경우, 선형, 이차식 형태, 지수적 형태
* 계절요인(Seasonal factor) : 요일마다 반복되는 일년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화할 경우
* 순환요인(Cyclical factor) : 명백한 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 자기고 변화하는 자료
* 불규칙요인(Irregular factor) : 추세요인, 계절요인, 순환요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인
* 시계열 모형
1) 자기회귀 모형(AR 모형, Autoregressive Model)
- p 시점 전의 자료가 현재 자료에 영향을 주는 모형이다.
- AR(1) 모형 : 직전 시점 데이터로만 분석
- AR(2) 모형 : 연속된 3시점 정도의 데이터로 분석
2) 이동평균 모형(MA 모형, Moving Average Model)
- 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족
- 1차 이동평균모형(MA1 모형)은 이동평균모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이뤄진 모형
- 2차 이동평균모형(MA2 모형)은 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이뤄진 모형
3) 자기회귀누적이동평균 모형
(ARIMA(p, d, q)_ 모형, Autoregressive Integrated Moving Average Model)
- ARIMA 모형은 비정상시계열 모형이다.
- ARIMA 모형을 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합친 ARMA 모형으로 정상화 할 수 있다.
4) 분해 시계열
- 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.
4_5. 다차원 척도법
* 다차원척도법(MDS : Multi Dimensional Scaling)
- 객체간 근접성(Proximity)을 시각화하는 통계기법이다.
- 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법이다.
- 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법이다.
* 다차원척도법 목적
- 데이터 속에 잠재해 있는 패턴(pattern), 구조를 찾아낸다.
- 그 구조를 소수 차원의 공간에 기하학적으로 표현한다.
- 데이터 축소(Data Reduction)의 목적으로 다차원척도법을 이용한다. 즉, 데이터에 포함되는 정보를 끄집어내기 위해서 다차원척도법을 탐색수단으로써 사용한다.
- 다차원척도법에 의해서 얻은 결과를, 데이터가 만들어진 현상이나 과정에 고유의 구조로서 의미를 부여한다.
* 다차원척도법 방법
- 개체들의 거리 계산에는 유클리드 거리행렬을 활용한다.
- 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)으로 나타낸다.
- 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용한다.
- 최적모형의 적합은 부적합도를 최소로 하는 반복알고리즘을 이용하며, 이 값이 일정 수준 이하가 될 때 최종적으로 적합된 모형으로 제시한다.
- STRESS와 적합도 수준 M은 개체들은 공간상에 표현하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용한다.
- 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준이하로 될 때까지 반복해서 수행한다.
* 다차원척도법 종류
1) 계량적 MDS(Metric MDS)
- 데이터가 구간척도나 비율척도인 경우 활용한다.(전통적인 다차원척도법) N개의 케이스에 대해서 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리행렬을 계산하고 개채들간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현한다.
2) 비계량적 MDS(nonmetric MDS)
- 데이터가 순서척도인 경우 활용한다. 개체들간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(monotone transformation)하여 거리를 생성한 후 적용한다.
4_6. 주성분 분석
* 주성분 분석(PCA : Principal Component Analysis)
- 여러 변수들의 변량을 ‘주성분(Pricipal Component)’이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.
- 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.
* 주성분분석의 목적
- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.
- 다중공선성이 존재하는 경우, 상관성이 없는(적은) 주성분으로 변수들을 축소하여 모형 개발에 활용된다. 회귀분석 등의 모형 개발 시 입력변수들간의 상관 관계가 높은 다중공선성(multicollinearity)이 존재할 경우 모형이 잘못 만들어져 문제가 생김
- 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.
- 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장(fatal failure) 징후를 사전에 파악하는데 활용하기도 한다.
* 주성분분석 vs 요인분석
1) 요인분석(Factor Analysis)
등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법이다.
2) 공통점
모두 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들 수 있다.
3) 차이점
가. 생성된 변수의 수
- 요인분석은 몇 개라고 지정 없이 만들 수 있다.
- 주성분분석은 제1주성분, 제2주성분, 제3주성분 정도로 활용한다.
나. 생성된 변수의 이름
- 요인분석은 분석자가 요인의 이름을 명명한다.
- 주성분분석은 주로 제1주성분, 제2주성분 등으로 표현한다.
다. 생성된 변수들 간의 관계
- 요인분석은 새 변수들은 기본적으로 대등한 관계를 갖고 ‘어떤 것이 더 중요하다’라는 의미는 요인분석에서는 없다. 단, 분류/예측에 그 다음 단계로 사용된다면 그 때 중요성의 의미가 부여된다.
- 주성분분석은 제1주성분이 가장 중요하고, 그 다음 제2주성분이 중요하게 취급된다.
라. 분석 방법의 의미
- 요인분석은 목표변수를 고려하지 않고 그냥 데이터가 주어지면 변수들을 비슷한 성격들로 묶어서 새로운 [잠재]변수들을 만든다.
- 주성분분석은 목표 변수를 고려하여 목표 변수를 잘 예측/분류하기 위하여 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분(변수)들을 찾아내게 된다.
* 주성분의 선택법
- 주성분분석의 결과에서 누적기여율(cumulative proportion)이 85%이상이면 주성분의 수로 결정할 수 있다.
- scree plot을 활용하여 고유값(eigenvalue)이 수평을 유지하기 전단계로 주성분의 수를 선택한다.
출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)
반응형'ADsP' 카테고리의 다른 글
[ADsP] 1과목 데이터 이해 - 기출문제 해설 (0) 2021.02.27 [ADsP] 3과목 데이터 분석_요약 정리(5.정형 데이터 마이닝) (0) 2021.02.27 [ADsP] 3과목 데이터 분석_요약 정리(1.데이터 분석 개요, 2.R 프로그래밍 기초, 3.데이터 마트) (0) 2021.02.27 [ADsP] 2과목 데이터 분석 기획 - 요약 정리 (0) 2021.02.27 [ADsP] 1과목 데이터 이해 - 요약 정리 (0) 2021.02.27