ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP] 3과목 데이터 분석_요약 정리(4.통계분석)
    ADsP 2021. 2. 27. 20:56
    반응형

    4. 통계분석

    4_1. 통계분석의 이해

    * 총 조사/전수 조사(census)

    - 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용 되지 않는다. (ex. 인구주택 총 조사)

     

    * 표본조사

    - 대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다.

    - 모집단(population) : 조사하고자 하는 대상 집단 전체

    - 원소(element) : 모집단을 구성하는 개체

    - 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소

    - 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

    - 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.

     

    * 표본 추출 방법 4가지

    - 표본조사의 중요한 점은 모집단을 대표할 수 있는 표본 추출이므로 표본 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생한다. (N개의 모집단에서 n개의 표본을 추출하는 경우)

    1) 단순랜덤 추출법(simple random sampling) : 각 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법으로 각 샘플은 선택될 확률이 동일하다. (비 복원, 복원(추출한 element를 다시 집어넣어 추출하는 경우) 추출)

    2) 계통추출법(systematic sampling) : 단순랜덤 추출법의 변형된 방식으로 번호를 부여한 샘플을 나열하여 K개씩 (K=N/n) n개의 구간으로 나누고 첫 구간(1, 2, 〮 〮 〮, K)에서 하나를 임의로 선택한 후에 K개씩 띄어서 n개의 표본을 선택한다. 즉, 임의 위치에서 매 k번째 항목을 추출하는 방법이다.

    3) 집락추출법(cluster random sampling) : 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법이다. (지역표본추출, 다단계표본추출)

    4) 층화추출법(stratified random sampling) : 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법으로, 유사한 원소끼리 몇 개의 층(stratum)으로 나누어 각 층에서 랜덤 추출하는 방법이다. (비례 층화추출법, 불비례 층화추출법)

     

    * 측정(measurement)

    - 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것이다.

     

    * 측정 방법

    1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분)

    2) 순서척도(서열척도) : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학년, 신용등급)

    3) 구간척도(등각척도) : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료 (온도, 지수)

    4) 비율척도 : 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리)

    - 질적척도 : 범주형 자료, 숫자들의 크기 차이가 계산되지 않는 척도 (명목척도, 순서척도)

    - 양적척도 : 수치형 자료, 숫자들의 크기 차이를 계산 할 수 있는 척도 (구간척도, 비율척도)

    - 순서척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다. (예 : 1등이 2등보다 성적이 높다.)

    - 구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다.

     

    * 이산형 확률변수

    - 0이 아닌 확률 값을 갖는 확률 변수를 셀 수 있는 경우(확률질량함수)

    - 이산형 확률변수의 예시 : 동전 2개를 던져서 앞/뒷면이 나오는 경우의 수

    1) 베르누이 확률분포(Bernoulli distribution)

    - 결과가 2개만 나오는 경우 (예시 : 동전 던지기, 시험의 합격/불합격 등)

    2) 이항분포(Binomial distribution)

    - 베르누이 시행을 n번 반복했을 때 k번 성공할 확률

    3) 기하분포(Geometric distribution)

    - 성공확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 x번 실패할 확률

    4) 다항분포(Multinomial distribution)

    - 이항분포를 확장한 것으로 세가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

    5) 포아송분포(Poisson distribution)

    - 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포(예 : 책에 오타가 5page 당 10개씩 나온다고 할 때, 한 페이지에 오타가 3개 나올 확률)

     

    * 연속형 확률변수

    - 가능한 값이 실수의 어느 특정구간 전체에 해당하는 확률변수(확률밀도함수)

    1) 균일분포(일양분포, Uniform distribution)

    - 모든 확률변수 X가 균일한 확률을 가지는 확률분포 (다트의 확률분포)

    2) 정규분포(Normal distribution)

    - 평균이 μ 이고, 표준편차가 σ 인 x의 확률밀도함수

    - 표준편차가 클 경우 퍼져보이는 그래프가 나타난다.

    - Z= X- μ (평균)δ (표준편차)

    3) 지수분포(Exponential distribution)

    - 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포이다.

    예) 전자레인지의 수명시간, 콜센터에 전화가 걸려올 때까지의 시간, 은행에 고객이 내방하는데 걸리는 시간, 정류소에서 버스가 올 때까지의 시간

    4) t-분포(t-distribution)

    - 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다.

    - 표본의 크기가 적을때는 표준정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만 표본이 커져서(30개 이상) 자유도가 증가하면 표준정규분포와 거의 같은 분포가 된다.

    - 데이터가 연속형일 경우 활용한다..

    - 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용된다.

    5) x2-분포(chi-square distribution)

    - 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용되는 분포이다.

    - 두 집단 간의 동질성 검정에 활용된다. (범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 적합성 검정에 활용)

    6) F-분포(F-distribution)

    - 두 집단간 분산의 동일성 검정에 사용되는 검정 통계량의 분포이다.

    - 확률변수는 항상 양의 값만 갖고 x2분포와 달리 자유도를 2개 가지고 있으며 자유도가 커질수록 정규분포에 가까워진다.

     

    * 확률표본(random samle)

    - 확률분포는 분포를 결정하는 평균, 분산 등의 모수(parameter)를 가지고 있다.

    - 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것이다.

    - 각 관찰 값들은 서로 독립적이며 동일한 분포를 갖는다.

     

    * 추정

    - 표본으로부터 미지의 모수를 추측하는 것이다.

    - 추정은 점추정(point estimation)과 구간측정(interval estimation)으로 구분된다,

    1) 점추정(point estimation)

    - ‘모수가 특정한 값일 것’이라고 추정하는 것이다.

    - 표본의 평균, 중위수, 최빈값 등을 사용한다.

    2) 구간추정(interval estimation)

    - 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것이다.

    - 항상 추정량의 분포에 대한 전제가 주어져야 하고, 구해진 구간 안에 모수가 있을 가능성의 크기(신뢰수준(confidence interval))가 주어져야 한다.

     

    * 가설검정

    - 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법이다.

    - 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정이다.

    - 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정한다.

    가) 귀무가설(null hypothesis, H0) : ‘비교하는 값과 차이가 없다, 동일하다’를 기본개념으로 하는 가설

    나) 대립가설(alternative hypothesis, H1) : 뚜렷한 증거가 있을 때 주장하는 가설

    다) 검정통계량(test statistic) : 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준

    라) 유의수준(significance level, α ) : 귀무가설을 기각하게 되는 확률의 크기로 ‘귀무가설이 옳은데도 이를 기각하는 확률의 크기’

    마) 기각영(critical region, C) : 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 a인 부분 (반대는 채택역(acceptance region))

     

    * 제1종 오류와 제2종 오류

    가설검정결과

    정확한사실

    H0가 사실이라고 판정

    H0가 사실이 아니라고 판정

    H0가 사실임

    올은 결정

    제1종 오류(α )

    H0가 사실이 아님

    제2종 오류(β )

    옳은 결정

     

    - 제1종 오류(type l error) : 귀무가설 H0가 옳은데도 귀무가설을 기각하게 되는 오류

    - 제2종 오류(type II error) : 귀무가설 H0가 옳지 않은데도 귀무가설을 채택하게 되는 오류

    - P-value : 검정통계량의 귀무가설을 지지하는 정도를 확률로 표현한 것

    즉, 귀무가설이 옳다는 가정하에 얻어진 검정통계량보다 더 극단적인 결과가 나올 확률, P-value가 작을수록 귀무가설을 기각하고 커질수록 귀무가설을 채택

     

    * 비모수적 검정

    - 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법이다.

    - 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용한다.

    - 관측된 자료의 수가 많지 않거나(30개 미만)자료가 개체간의 서열관계를 나타내는 경우에 이용한다.

    - 가정된 분포가 없으므로 가설은 단지 ‘분포의 형태가 동일하다’ 또는 ‘분포의 형태가 동일하지 않다’와 같이 분포의 형태에 대해 설정한다.

    - 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위(rank)나 두 관측값 차이의 부호 등을 이용해 검정한다.

    - 비모수 검정의 예 : 부호검정(sign test), 윌콕슨의 순위합검정(rank sum test), 윌콕슨의 부호순위합검정(Wilcoxon signed rank test), 만-위트니의 U 검정, 런검정(run test), 스피어만의 순위상관계수

     

    4_2. 기초 통계 분석

    * 기술통계(Descriptive Statistics)

    - 자료의 특성을 표, 그림, 통계량 등을 사용하여 쉽게 파악할 수 있도록 정리/요약하는 것이다.

    - 자료를 요약하는 기초적 통계를 의미한다.

    - 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다.

     

    * 분포의 형태에 관한 측도

    1) 왜도

    - 분포의 비대칭정도를 나타내는 측도이다.

    - 왜도가 양수인 경우 최빈값<중앙값<평균 순으로 위치, 왼쪽으로 밀집되어있고 오른쪽으로 긴 꼬리를 갖는 분포

    - 왜도가 음수인 경우 평균<중앙값<최빈값 순으로 위치, 오른쪽으로 밀집되어 있고 왼쪽에 긴 꼬리를 갖는 분포

    - 왜도가 0인 경우 최빈값=중앙값=평균 순으로 위치, 좌우대칭의 분포

    (최빈값 : 자료분포 중에서 가장 빈번히 관찰된 최다도수를 갖는 자료값)

    2) 첨도

    - 분포의 중심에서 뾰족한 정도를 나타내는 측도이다.

    - 첨도가 양수인 경우 표준정규분포보다 더 뾰족함

    - 첨도가 음수인 경우 표준정규분포보다 덜 뾰족함

    - 첨도가 0인 경우 표준정규분포와 유사한 뾰족함

     

    * R에서 활용되는 대표적 기술통계

    head(data명) : 데이터를 기본 6줄 보여주어 데이터가 성공적으로 import되었는지 살펴볼 수 있다.

    head(data명, n) : n에 숫자를 지정해주면 n번재 라인까지 살펴볼 수 있다.

    summary(data명) : 데이터 컬럼에 대한 전반적인 기초 통계량을 보여준다.

    mean(data명$column명) : 특정 컬럼의 평균을 알고 싶을 때 사용

    median(data명$column명) : 특정 컬럼의 중앙값을 알고 싶을 때 사용

    sd(data명$column명) : 특정 컬럼의 표준편차를 알고 싶을 때 사용

    var(data명$column명) : 특정 컬럼의 분산을 알고 싶을 때 사용

    quantile(data명$column명) : 특정 컬럼의 분위수를 알고 싶을 때 사용

     

    * 편차 : 개별 표본과 평균 값의 차이를 말합니다. 편차의 절대값이 클수록 분산의 크기가 큰 자료라고 볼 수 있습니다.

    * 분산 : 편차는 개별 표본에 대해서만 계산되지만, 분산은 전체를 통틀어 하나의 지표로 계산한 값입니다. 분산은 편차에 제곱한 값을 모두 더하여, 데이터의 총 개수로 나눈 값입니다.

    * 표준편차 : 표본들이 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 수치입니다. 표준편차가 0에 가까울수록 표본의 값이 평균 근처에 집중되어 있으며, 표준편차가 클수록 표본의 값들이 넓게 퍼져 있음을 의미합니다.

    * 분위수 : n개의 데이터를 작은 수에서부터 큰 수의 순으로 늘어놓고, 그것을 k등분했을 때, 나누어진 각 부분의 경계가 되는 수치입니다. k = 4로 하여 보편적으로 사분위수를 많이 사용합니다.

     

    * 인과관계의 이해

    종속변수(반응변수, Y) : 다른 변수의 영향을 받는 변수

    독립변수(설명변수, X) : 영향을 주는 변수

    산점도(scatter plot) : 좌표평면 위에 점들로 표현한 그래프

    공분산(covariance)

    - 두 확률변수 X, Y 의 방향의 조합(선형성)이다.

    - 공분산의 부호만으로 두 변수간의 방향성을 확인할 수 있다. 공분산의 부호가 +이면 두 변수는 양의 방향성, 공분산의 부호가 -이면 두 변수는 음의 방향성을 가진다.

    - X, Y 가 서로 독립이면, Cou(X, Y) = 0 이다.

     

    * 상관분석

    - 두 변수 간의 관계의 정도를 알아보기 위한 분석방법이다.

    - 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient)를 이용한다.

    - 상관계수가 0이면 상관관계(선형, 직선)가 존재하지 않는다.

     

    * 상관분석의 유형

    구분

    피어슨

    스피어만

    개념

    - 등간척도 이상으로 측정된 변수들의 상관 관계 측정 방식

    - 서열척도인 두 변수들의 상관관계 측정 방식

    특징

    - 연속형 변수, 정규성 가정

    - 대부분 많이 사용

    - 순서형 변수, 비모수적 방법

    - 순위를 기준으로 상관관계 측정

    상관계수

    - 피어슨 (적률상관계수)

    - 순위상관계수 (로우)

     

    * 상관분석을 위한 R코드

    분산 : var(x, y = NULL, na.rm=FALSE)

    공분산 : cov(x, y = NULL)

    상관관계 : cor(x, y = NULL)

     

    * 평균, 분산, 공분산, 자기공분산

    평균 : 주어진 수의 합을 수의 개수로 나눈 값

    분산 : 어떤 대상의 흩어진 정도나 상태, 편차 제곱의 평균값

    * 편차 : 관측값에서 평균을 뺀 값 (관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.)

     

    * 상관분석의 가설 검정

    - 상관계수 r이 0이면 입력변수 x와 출력변수 y사이에는 아무런 관계가 없다. (귀무가설 : r=0, 대립가설 r≠0 )

    - t 검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우, 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있게 된다.

     

    4_3. 회귀분석

    * 회귀분석의 정의

    - 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다.

    - 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법이다.

    -  독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형회귀분석으로 분석할 수 있다.

     

    * 회귀분석의 변수

    영향을 받는 변수(y) : 반응변수(response variable), 종속변수(dependent variable), 결과변수(outcome variable)

    영향을 주는 변수(x) : 설명변수(explanatory variable), 독립변수(independent variable), 예측변수(predictor variable)

     

    * 선형회귀분석의 가정

    1) 선형성 : 입력변수와 출력변수의 관계가 선형이다. (선형회귀분석에서 가장 중요한 가정)

    2) 등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다. 잔차플롯(산점도)를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족하게 된다.

    3) 독립성 : 입력변수와 오차는 관련이 없다. 자기상관(독립성)을 알아보기 위해 Durbin-Waston 통계량을 사용하며 주로 시계열 데이터에서 많이 활용한다.

    4) 비상관성 : 오차들끼리 상관이 없다.

    5) 정상성(정규성) : 오차의 분포가 정규분포를 따른다. Q-Q plot, Kolmogolov-Smirnov검정, Shaprio-Wilk검정 등을 활용하여 정규성을 확인한다.

     

    * 그래프를 활용한 선형회귀분석의 가정 검토

    1) 선형성 : 선형회귀모형에서는 설명변수(x)와 반응변수(y)가 선형적 관계에 있음이 전제되어야 한다.

    2) 등분산성

    가) 등분산성을 만족하는 경우

    설명변수(x)에 대한 잔차의 산점도를 그렸을 때, 설명변수(x) 값에 관계없이 잔차들의 변동성(분산)이 일정한 형태를 보이면 선형회귀분석의 가정 중 등분산성을 만족한다고 볼 수 있다.

    나) 등분산성을 만족하지 못하는 경우

    a) 설명변수(x)가 커질수록 잔차의 분산이 줄어드는 이분산의 형태

    b) 2차항 설명변수가 필요

    c) 새로운 설명변수가 필요

    3) 정규성 : Q-Q Plot을 출력했을 때, 잔차가 대각방향의 직선의 형태를 지니고 있으면 잔차는 정규분포를 따른다고 할 수 있다.

     

    * 가정에 대한 검증

    1) 단순선형회귀분석

    입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인한다.

    2) 다중선형회귀분석

    선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족하는지 확인해야 한다.

     

    * 단순선형회귀분석

    하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법이다.

     

    회귀식의 용어 설명

    Residuals : 잔차 (회귀식에 의해 추정된 값과 실체값(입력값)에 차이)

    Min : 최솟값, 1Q : 1사분위수, Median : 중앙값, 3Q : 3사분위수, Max : 최댓값

    Coefficients : 모델의 모수 - 절편과 기울기 나열

    Estimate : 추정된 계수

    Std. Error : 표준오차

    t value : t값 점수

    Pr : p-값

    Residual standard error : 잔차 표준편차

    degrees of freedom : 자유도

    Multiple R-squared : 결정계수

    Adjusted R-squared : 수정된 계수

    F-statistic : F 통계량 (수정된 계수보다 큰 값)

    p-value : p-값

     

    * 회귀분석에서의 검토사항

    1) 회귀계수들이 유의미한가?

    해당 계수의 t 통계량의 p- 값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의하다고 볼 수 있다.

    - 회귀계수인 t통계량에 대한 p-값(p-value)

    2) 모형이 얼마나 설명력을 갖는가?

    결정계수(R2)를 확인한다. 결정계수는 0~1값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

    - 결정계수(Multiple R-squared), Adjusted R-squared

    3) 모형이 데이터를 잘 적합하고 있는가?

    잔차를 그래프로 그리고 회귀진단을 한다.

    4) R에서 회귀분석은 lm함수를 사용하며, 첫 번째 입력 값은 회귀분석 직선식이고, 두 번째는 입력 값은 데이터이다.

     

    * 회귀계수의 추정(최소제곱법, 최소자승법)

    측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법으로 잔차제곱이 가장 작은 선을 구하는 것을 의미한다.

     

    * 회귀계수의 검정

    - 회귀계수 β 1이 0이면 입력변수 x와 출력 변수 y사이에는 아무런 인과관계가 없다.

    - 회귀계수 β 1이 0이면 적합된 추정식은 아무 의미가 없게 된다. (귀무가설 : β 1 = 0,. 대립가설 β 1 ≠  0)

     

    3) 회귀직선의 적합도 검토

    - 결정계수(R2)를 통해 추정된 회귀식이 얼마나 타당한지 검토한다. (결정계수(R2)가 1에 가까울수록 회귀모형이 자료를 잘 설명함)

    - 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표이다.

    - 다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수(R2)가 높아지므로 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있다.

    - 이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수(adjusted R2)를 활용한다.

     

    *오차(error)와 잔차(residual)의 차이

    - 오차 : 모집단에서 실제값이 회귀선과 비교해 볼 때 나타는 차이(정확치와 관측지의 차이)

    - 잔차 : 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이

    회귀모형에서 오차항은 측정할 수 없으므로 잔차를 오차항의 관찰값으로 해석하여 오차항에 대한 가정들의 성립 여부를 조사함

     

    * 다중선형회귀분석(다변량회귀분석)

    1) 모형의 통계적 유의성

    - 모형의 통계적 유의성은 F통계량으로 확인한다.

    - 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.

    - F통계량이 크면 p-Value가 0.05보다 작아지고 이렇게 되면 귀무가설을 기각한다. 즉, 모형이 유의하다고 결론지을 수 있다. (F-통계량(F-statistic))

    2) 회귀계수의 유의성

    - 회귀계수의 유의성은 단변량 회귀분석의 회귀계수 유의성 검토와 같이 t통계량을 통해 확인한다.

    - 모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형을 활용할 수 있다.

    3) 모형의 설명력

    - 결정계수(R2)나 수정된 결정계수(R2a)를 확인한다.

    4) 모형의 적합성

    - 모형이 데이터를 잘 적합하고 있는지 잔차와 종속변수의 산점도로 확인한다.

    5) 데이터가 전제하는 가정을 만족시키는가?

    - 선형성, 독립성, 등분산성, 비상관성, 정상성

    6) 다중공선성(multicollinearity)

    - 다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란하다.

    - 다중공선성 검사 방법

    가) 분산팽창요인(VIF) : 4보다 크면 다중공선성이 존재한다고 볼 수 있고, 10보다 크면 심각한 문제가 있는 것으로 해석할 수 있다.

    나) 상태지수 : 10이상이면 문제가 있다고 보고, 30보다 크면 심각한 문제가 있다고 해석할 수 있다.

    - 다중선형회귀분석에서 다중공선성의 문제가 발생하면, 문제가 있는 변수를 제거하거나 주성분회귀, 능형회귀 모형을 적용하여 문제를 해결한다.

     

    * 회귀분석의 종류

    1) 단순회귀 : 독립변수가 1개이며 종속변수와의 관계가 직선

    2) 다중회귀 : 독립변수가 k개이며 종속변수와의 관계가 선형(1차 함수)

    3) 로지스틱 회귀 : 종속변수가 범주형(2진변수)인 경우에 적용되며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장할 수 있음

    4) 다항회귀 : 독립변수와 종속변수와의 관계가 1차 함수 이상인 관계(단 k=1이면 2차 함수 이상)

    5) 곡선회귀 : 독립변수가 1개이며 종속변수와의 관계가 곡선

    6) 비선형 회귀 : 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않은 모형

     

    *  최적회귀방정식

    1) 설명변수 선택

    - 필요한 변수만 상황에 따라 타협을 통해 선택한다.

    - y에 영향을 미칠 수 있는 모든 설명변수 x들은 y의 값을 예측하는데 참여한다.

    - 데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구되므로, 가능한 범위 내에서 적은 수의 설명변수를 포함한다.

    2) 모형선택(exploratory analysis) : 분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법이다.

    - 모든 가능한 조합의 회귀분석(All possible regression) : 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성한 뒤 가장 적합한 회귀모형을 선택

    3) 단계적 변수선택(Stepwise Variable Selection)

    전진선택법(forward selection) : 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가한다.

    * 전진선택법은 이해하기 쉽고 변수의 개수가 많은 경우에도 사용 가능합니다. 하지만 변수 값의 작은 변동에도 그 결과가 크게 달라져 안정성이 부족한 단점이 있다.

    후진제거법(backward elimination) : 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때 모형을 선택한다.

    * 후진제거법은 전체 변수들의 정보를 이용하는 장점이 있는 반면 변수의 개수가 많은 경우 사용하기 어렵다.

    단계선택법(stepwise method) : 전진선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다.

     

    * 벌점화된 선택기준

    모형의 복잡도에 벌점을 주는 방법으로 AIC 방법과 BIC 방법이 주로 사용된다.

    1) 방법

    - AIC(Akaike information criterion)

    - BIC(Bayesian information criterion)

    2) 설명

    - 모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택한다.

    - 모형선택의 일치성(consistency inselection) : 자료의 수가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최소값을 갖게 되는 성질이다.

    - AIC를 활용하는 방법이 보편화된 방법이다.

    - 그밖의 벌점화 선택기준으로 RIC(risk inflation criterion), CIC(covariance inflation criterion), DIC(deviation information criterion)가 있다.

     

    4_4. 시계열 분석

    * 시계열 자료

    - 시간의 흐름에 따라 관찰된 값들을 시계열 자료라 한다.

    - 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용한다.

     

    * 시계열 자료의 종류

    1) 비정상성 시계열 자료 : 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료가 이에 해당한다.

    2) 정상성 시계열 자료 : 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료이다.

     

    * 정상성 시계열

    1) 평균이 일정한 경우

    - 모든 시점에 대해 일정한 평균을 가진다.

    - 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화할 수 있다.

    2) 분산이 일정

    - 분산도 시점에 의존하지 않고 일정해야 한다.

    - 분산이 일정하지 않을 경우 변환(Transformation)을 통해 정상화할 수 있다.

    3) 공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않는다.

     

    * 정상 시계열의 특징

    - 정상 시계열은 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 갖는다.

    - 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 갖는다.

    - 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다.

     

    * 차분이란?

    - 차분은 현시점 자료에서 전 시점 자료를 빼는 것이다.

    - 일반차분(regular difference) : 바로 전 시점의 자료를 빼는 방법이다.

    - 계절차분(seasonal difference) : 여러 시점 전의 자료를 빼는 방법으로, 주로 계절성을 갖는 자료를 정상화 하는데 사용한다.

     

    * 시계열자료 분석방법

    회귀분석(계량경제)방법, Box-Jenkins 방법, 지수평활법, 시계열 분해법 등이 있다.

    - 수학적 이론모형 : 회귀분석(계량경제)방법, Box-Jenkins 방법

    - 직관적 방법 : 지수평활법, 시계열 분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용

    - 장기 예측 : 회귀분석방법 활용

    - 단기 예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용

     

    * 자료 형태에 따른 시계열자료 분석방법

    1) 일반량 시계열분석

    - Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등이 있다.

    - 시간(t)을 설명변수로 한 회귀모형주가, 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열분석

    2) 다중 시계열분석

    - 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등

    - 여러개의 시간(t)에 따른 변수들을 활용하는 시계열 분석

    계량경제(econometrics) : 시계열 데이터에 대한 회귀분석(예 : 이자율, 인플레이션이 환율에 미치는 요인)

     

    * 이동평균법

    1) 이동평균법의 개념

    - 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산한고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법

    - 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용됨

    - n개의 시계열 데이터를 m기간으로 이동평균하면 n-m_1개의 이동평균 데이터가 생성된다.

    2) 이동평균법의 특징

    - 간단하고 쉽게 미래를 예측할 수 있으며, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질(quality)가 높음

    - 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함

    - 일반적으로 시계열 자료에 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우에는 짧은 기간(m의 개수를 적음)의 평균을 사용, 반대로 불규칙변동이 심한 경우 긴 기간(m의 개수가 많음)의 평균을 사용함

    - 이동평균법에서 가장 중요한 것은 적절한 기간을 사용하는 것, 즉, 적절한 n의 개수를 결정하는 것임

     

    * Box-Jenkins(ARMA)

    - 지난 과거 시계열 데이터를 가장 잘 접합시키는 방법론을 제안

    - ARMA = AR + MA

    - AR : 자기상관성(어떤 변수에 대하여 이전의 값이 이후의 값에 영향을 미치고 있는 상황)을 시계열 모형으로 배열한 것

    - MA : 시간이 지날수록 어떠한 변수의 평균값이 지속적으로 증가하거나 감소하는 경향에 대한 이동평균을 - 지난 과거 시계열 데이터를 가장 잘 접합시키는 방법론을 제안

    - ARMA = AR + MA

    - AR : 자기상관성(어떤 변수에 대하여 이전의 값이 이후의 값에 영향을 미치고 있는 상황)을 시계열 모형으로 배열한 것

    - MA : 시간이 지날수록 어떠한 변수의 평균값이 지속적으로 증가하거나 감소하는 경향에 대한 이동평균을

     

    * 지수평활법

    1) 지수평활법의 개념

    - 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법

    2) 지수평활법의 특징

    - 단기간에 발생하는 불규칙변동을 평활하는 방법

    - 자료의 수가 많고, 안정된 패턴을 보이는 경우일수록 예측 품질이 높음

    - 지수평활법에서 가중치의 역할을 하는 것은 지수평활계수이며, 불규칙변동이 큰 시계열의 경우 지수평활계수는 작은 값을, 불규칙변동이 작은 시계열의 경우 큰 값의 지수평활계수를 적용함

    - 지수평활계수는 예측오차(실제 곽측치와 예측치 사이의 잔차제곱합)를 비교하여 예측오차가 가장 작은 값을 선택하는 것이 바람직함

    - 지수평활계수는 과거로 갈수록 지속적으로 감소함

    - 지수평활법은 불규칙변동의 영향을 제거하는 효과가 있으며, 중기 예측 이상에 주로 사용됨

    (단, 단순지수 평활법의 경우, 장기추세나 계정변동이 포함된 시계열의 예측에는 적합하지 않음)

     

    * 시계열 분해법

    - 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

    - 시계열 구성요소 : 추세요인, 계절요인, 순환요인, 불규칙요인

    * 추세요인(Trend factor) : 자료의 그림을 그렸을 때 그 형태가 오르거나 또는 내리는 추세를 따르는 경우, 선형, 이차식 형태, 지수적 형태

    * 계절요인(Seasonal factor) : 요일마다 반복되는 일년 중 각 월에 의한 변화, 사분기 자료에서 각 분기에 의한 변화 등 고정된 주기에 따라 자료가 변화할 경우

    * 순환요인(Cyclical factor) : 명백한 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 자기고 변화하는 자료

    * 불규칙요인(Irregular factor) : 추세요인, 계절요인, 순환요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

     

    * 시계열 모형

    1) 자기회귀 모형(AR 모형, Autoregressive Model)

    - p 시점 전의 자료가 현재 자료에 영향을 주는 모형이다.

    - AR(1) 모형 : 직전 시점 데이터로만 분석

    - AR(2) 모형 : 연속된 3시점 정도의 데이터로 분석

    2) 이동평균 모형(MA 모형, Moving Average Model)

    - 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족

    - 1차 이동평균모형(MA1 모형)은 이동평균모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합으로 이뤄진 모형

    - 2차 이동평균모형(MA2 모형)은 바로 전 시점의 백색잡음과 시차가 2인 백색잡음의 결합으로 이뤄진 모형

    3) 자기회귀누적이동평균 모형

    (ARIMA(p, d, q)_ 모형, Autoregressive Integrated Moving Average Model)

    - ARIMA 모형은 비정상시계열 모형이다.

    - ARIMA 모형을 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합친 ARMA 모형으로 정상화 할 수 있다.

    4) 분해 시계열

    - 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말하며 회귀분석적인 방법을 주로 사용한다.

     

    4_5. 다차원 척도법

    * 다차원척도법(MDS : Multi Dimensional Scaling)

    - 객체간 근접성(Proximity)을 시각화하는 통계기법이다.

    - 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법이다.

    - 개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법이다.

     

    * 다차원척도법 목적

    - 데이터 속에 잠재해 있는 패턴(pattern), 구조를 찾아낸다.

    - 그 구조를 소수 차원의 공간에 기하학적으로 표현한다.

    - 데이터 축소(Data Reduction)의 목적으로 다차원척도법을 이용한다. 즉, 데이터에 포함되는 정보를 끄집어내기 위해서 다차원척도법을 탐색수단으로써 사용한다.

    - 다차원척도법에 의해서 얻은 결과를, 데이터가 만들어진 현상이나 과정에 고유의 구조로서 의미를 부여한다.

     

    * 다차원척도법 방법

    - 개체들의 거리 계산에는 유클리드 거리행렬을 활용한다.

    - 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)으로 나타낸다.

    - 각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용한다.

    - 최적모형의 적합은 부적합도를 최소로 하는 반복알고리즘을 이용하며, 이 값이 일정 수준 이하가 될 때 최종적으로 적합된 모형으로 제시한다.

    - STRESS와 적합도 수준 M은 개체들은 공간상에 표현하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용한다.

    - 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준이하로 될 때까지 반복해서 수행한다.

     

    * 다차원척도법 종류

    1) 계량적 MDS(Metric MDS)

    - 데이터가 구간척도나 비율척도인 경우 활용한다.(전통적인 다차원척도법) N개의 케이스에 대해서 p개의 특성변수가 있는 경우, 각 개체들간의 유클리드 거리행렬을 계산하고 개채들간의 비유사성 S(거리제곱 행렬의 선형함수)를 공간상에 표현한다.

     

    2) 비계량적 MDS(nonmetric MDS)

    - 데이터가 순서척도인 경우 활용한다. 개체들간의 거리가 순서로 주어진 경우에는 순서척도를 거리의 속성과 같도록 변환(monotone transformation)하여 거리를 생성한 후 적용한다.

     

    4_6. 주성분 분석

    * 주성분 분석(PCA : Principal Component Analysis)

    - 여러 변수들의 변량을 ‘주성분(Pricipal Component)’이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.

    - 첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형조합을 만든다.

     

    * 주성분분석의 목적

    - 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.

    - 다중공선성이 존재하는 경우, 상관성이 없는(적은) 주성분으로 변수들을 축소하여 모형 개발에 활용된다. 회귀분석 등의 모형 개발 시 입력변수들간의 상관 관계가 높은 다중공선성(multicollinearity)이 존재할 경우 모형이 잘못 만들어져 문제가 생김

    - 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.

    - 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장(fatal failure) 징후를 사전에 파악하는데 활용하기도 한다.

     

    * 주성분분석 vs 요인분석

    1) 요인분석(Factor Analysis)

    등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법이다.

    2) 공통점

    모두 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들 수 있다.

    3) 차이점

    가. 생성된 변수의 수

    - 요인분석은 몇 개라고 지정 없이 만들 수 있다.

    - 주성분분석은 제1주성분, 제2주성분, 제3주성분 정도로 활용한다.

    나. 생성된 변수의 이름

    - 요인분석은 분석자가 요인의 이름을 명명한다.

    - 주성분분석은 주로 제1주성분, 제2주성분 등으로 표현한다.

    다. 생성된 변수들 간의 관계

    - 요인분석은 새 변수들은 기본적으로 대등한 관계를 갖고 ‘어떤 것이 더 중요하다’라는 의미는 요인분석에서는 없다. 단, 분류/예측에 그 다음 단계로 사용된다면 그 때 중요성의 의미가 부여된다.

    - 주성분분석은 제1주성분이 가장 중요하고, 그 다음 제2주성분이 중요하게 취급된다.

    라. 분석 방법의 의미

    - 요인분석은 목표변수를 고려하지 않고 그냥 데이터가 주어지면 변수들을 비슷한 성격들로 묶어서 새로운 [잠재]변수들을 만든다.

    - 주성분분석은 목표 변수를 고려하여 목표 변수를 잘 예측/분류하기 위하여 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분(변수)들을 찾아내게 된다.

     

    * 주성분의 선택법

    - 주성분분석의 결과에서 누적기여율(cumulative proportion)이 85%이상이면 주성분의 수로 결정할 수 있다.

    - scree plot을 활용하여 고유값(eigenvalue)이 수평을 유지하기 전단계로 주성분의 수를 선택한다.

     

    출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)

    반응형

    댓글

Designed by Tistory.