ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP] 3과목 데이터 분석 - 기출문제 해설(4.통계분석)
    ADsP 2021. 2. 27. 21:03
    반응형

    기출문제 해설(4.통계분석)

    * 표본추출방법은 단순랜덤추출법, 계통추출법, 질락추출법, 층화추출법이다.

     

    * 확률 및 확률분포에 대한 설명

    - 모든 사건의 확률값은 0과 1사이에 있다.

    - 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합이다.

    - 두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정하에서의 B의 조건부확률과 동일하다.

     

    * 연속형 확률변수는 가능한 값이 실수의 특정구간 전체에 해당하는 확률변수이며 연속형 확률밀도함수를 가진다.

     

    * 통계적 추론에 대한 설명

    - 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 추론하는 것을 추정이라고 한다.

    - 점 추정은 표본의 정보로부터 모집단의 모수를 하나의 값을 추정하는 것이다.

    - 통계적 추론은 제한된 표본을 바탕으로 모집단에 대한 일반적인 결론을 유도하려는 시도이므로 본질적으로 불확실성을 수반한다.

    - 구간추정은 모수의 참값이 포함되어 있다고 추정되는 구간을 결정하는 것이지만, 실제 모집단의 모수가 신뢰구간에 꼭 포함되어 있는 것은 아니다.

     

    * 표본조사에 대한 설명

    - 표본오차(sampling error)는 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차를 말한다.

    - 표본편의(sampling bias)는 모수를 작게 또는 크게 할 때 추정하는 것과 같이 표본추출방법에서 기인하는 오차를 의미한다.

    - 표본편의는 확률화(randomization)에 의해 최소화하거나 없앨 수 있다. 확률화란 모집단으로부터 편의되지 않은 표본을 추출하는 절차를 의미하며 확률화 절차에 의해 추출된 표본을 확률표본(random sample)이라 한다.+

     

    - 비표본오차(non-sampling error)는 표본오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커진다.

     

    * 확률 및 활률분포에 관한 설명

    - (사건 A가 일어나는 경우의 수)/(일어날 수 있는 모든 경우의 수)를 P(A)라 할 때 이를 A의 수학적 활률이라 한다.

    - 한 사건 A가 일어날 확률을 P(A)라 할 때 n번의 반복시행에서 사건 A가 일어난 횟수를 r라 하면, 상대도수는 r/n는 n이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다. P(A)를 사건 A의 통계적 확률이라 한다.

    - 표본공간에서 임의의 사건 A가 일어날 확률 P(A)는 항상 0과 1사이에 있다.

     

    * 표본조사의 유의점에 대한 설명

    - 표본편의(Sampling Bias)는 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차를 의미한다.

    - 표본편의(Sampling Bias)는 확률화(Randomization)에 의해 최소화하거나 없앨 수 있다.

    - 표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본오차가 발생할 수 있다.

    - 응답오차, 유도질문 등은 표본조사에서 유의할 점이다.

     

    * 자료의 측정 수준에 대한 설명

    - 명목척도(nominal scale)는 단순한 번호로 차례의 의미는 없다.

    - 순서척도(ordinal scale)는 순서가 의미를 가지는 번호이다.

    - 구간척도(interval scale)는 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료이다.

    - 비율척도ratio scale)는 0을 기준으로 하는 절대적 척도를 간격뿐만 아니라 비율에도 의미가 있다.

     

    * p-value는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률을 나타낸다.

     

    * 이산형 확률변수의 기댓값은 E(X) =  ∑ x· f (x)  이고 연속형 확률변수의 기댓값은 E(X) = ∫  ​x·f(x) dx​ 이다.

     

    * 조건부 확률은 어떤 사건이 일어난 조건하에서 다른 사건이 일어날 확률을 말한다. 사건 A가 일어났을 때 사건 B의 조건부 확률을 P(B|A)라고 표현하여 P(B|A)=P(A∩ B) / P(A) 이다.

     

    * 모분산의 추론에 대한 설명

    - 모집단의 변동성 또는 퍼점의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.

    - 정규모집단으로부터 n개를 단순임의 추출한 표본의 분산은 카이제곱 분포를 따른다.

    - 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 정규모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다.

    - 이 표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.

     

    * 추정과 가설검정

    - 가장 참값이라고 여겨지는 하나의 모수 값을 택하는 것을 점추정이라고 한다. 즉, 점추정은 모수가 특정한 값일 것이라고 추정하는 것이다.

    - 구간추정이란 일정한 크기의 신뢰구간으로 모수가 특정한 구간에 있을 것이라고 선언 하는 것으로 구해진 구간을 신뢰구간이라고 한다.

    - p-value는 귀무가설이 옳다는 가정 하에서 실제 관측된 값보다 대립가설을 지지하는 방향으로 검정통계량이 치우쳐 나타날 확률이다.

    - 검정력이란 대립가설이 맞을  때 그것을 받아들이는 확률을 의미한다.

     

    * 이산형 확률변수 : 베르누이 분포, 이항분포, 기하분포, 다항분포, 포아송분포

    * 연속형 확률변수 : 균일분포, 정규분포, 지수분포, t-분포, x2분포, F-분포

     

    * 자료의 종류에 대한 설명

    - 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용

    - 순서척도 : 측정 대상의 특성이 가지는 서열관계를 관측하는 척도

    - 구간척도 : 측정 대상이 갖는 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격이 의미가 있는 자료

    - 비율척도 : 간격에 대한 비율이 의미를 가지는 자료로서 절대적인 기준 0이 존재하고 사칙연삭이 가능하다.

     

    * 히스토그램에 대한 설명

    - 히스토그램에서는 가로축이 계급, 세로축이 도수를 나타난다. 계급은 보통 변수의 구간이며, 서로 겹치지 않는다.

    - 히스토그램은 표본의 크기가 작으면 각 막대의 높이가 데이터 분포의 형상을 잘 표현해내지 못한다.

    - 그래프의 모양이 치우져있거나 봉우리가 여러개 있는 그래프는 비정규 데이터일 수 있다.

    - 봉우리가 여러개 있는 데이터는 일반적으로 2개 이상의 공정이나 조건에서 데이터가 수집되는 경우 발생한다.

     

    * 분석결과에서 자유도(df : degree of freedom), 자유도의 개수는 (n-1)이다.

     

    * 제1종 오류는 H0가 사실일 때, H0가 사실이 아니라고 판정하는 것이다.

     

    * 비모수적 방법의 특징

    - 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다.

    - 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용된다.

    - 분포의 모수에 대한 가설을 설정하지 않고 분포의 형태에 대해 가설을 설정한다.

    - 비모수적 검정은 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정한다.

     

    * 모집단 분포의 개형을 파악하는 방법

    - 히스토그램은 도수분포표를 이용하여 표본자료의 분포를 나타낸 그래프이다. 수평축 위에 계급구간을 표시하고 그 위로 각 계급의 상대도수에 비례하는 넓이의 직사각형을 그린 것이다.

    - 산점도는 두 특성의 값이 연속적인 수인 경우, 표본자료를 그래프로 나타내는 방법으로써 각 이차원 자료에 대하여 좌표가(특성 1의 값, 특성 2의 값)인 점을 좌표평면 위에 찍은 것이다.

    - 파레토그림(pareto diagram)은 명목형 자료에서 “중요한 소수”를 찾는데 유용한 방법이다.

     

    * 귀무가설에서 설정한 평균의 참값은 100으로 평균에 대한 95% 신뢰구간에 포함되지 않는다.

     

    * 스피어만 상관계수에 대한 설명

    - 서열척도로 측정된 변수간 관계를 측정한다.

    - -1과 1사이의 값을 가진다.

    - 0은 상관관계가 없음을 의미한다.

    - 상관계수는 순서형 변수를 사용하며 비모수적 상관관계를 나타낸다.

     

    * 회귀분석의 가정은 선형성, 독립성, 정규성, 등분산성, 비상관성이다.

     

    * 상관계수에 대한 설명

    - 피어슨 상관계수는 두 변수 간의 선형관계의 크기를 측정한다.

    - 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 측정 가능하다.

    - 피어슨 상관계수와 스피어만 상관계수는 -1과 1사이의 값을 가진다.

    - 피어슨 상관계수는 연속형 변수에 사용하며 정규성을 가정한다. 스피어만 상관계수는 순서형 변수에 사용하며 비모수적 방법이다. 피어슨 상관계수를 순위로 변환시키는 것은 옳지 않다.

     

    * 상관분석에 대한 설명

    - 등간 척도 및 비율척도로 측정된 변수들 간의 상관계수를 측정하는데 피어슨 상관계수를 이용한다.

    - 서열 척도로 측정된 변수들 간의 상관계수를 측정하는데 스피어만 상관계수를 이용한다.

    - 상관분석은 변수들 간의 연관성을 파악하기 위해 사용하는 분석 기법 중 하나로 변수 간의 선형 관계 정도를 분석하는 통계기법이다.

     

    * 종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속 변수값을 예측하는 선형모형을 산출하는 방법은 회귀분석이다.

     

    * 다중회귀모형이 통계적으로 유의미한지 확인하는 방법은 F통계량을 확인하는 것이다.

     

    * 상관분석을 통해 분석은 알 수 없으며, 변수 자기 자신과의 상관계수가 1이다.

     

    * 상관계수는 -1에서 1사이의 값으로 나타나며 1과 -1에 가까울수록 각각 양의 선형, 음의 선형관계를 띈다. 0.27은 0에 가까우므로 선형관계를 뛴다고 확하기 어렵다.

     

    * 상관분석은 두 변수 간의 관계 정도를 알아보기 위한 분석방법이지 상관분석으로 인과관계를 알 수 없다.

     

    * 모형의 적합도를 확인하기 위해 p-value 값을 확인해보면 < 2.2e-16 으로 0.05보다 작게 나타나므로 통계적으로 유의하다.

     

    * 회귀분석에서 가장 적합한 회귀모형을 찾기 위한 과정의 설명

    - 독립변수의 수가 많아지면 모델의 설명력이 증가하지만 모형이 복잡해지고, 독립변수들 간에 서로 영향을 미치는 다중공선성의 문제가 발생하므로 상대적인 조정이 필요하다.

    - 잔차의 독립성, 등분산성 그리고 정규성을 만족하는지 확인해야 한다.

    - 회귀분석의 가설검정에서 p값이 0.05보다 작은 값이 나와야 통계적으로 유의한 결과로 받아들일 수 있다.

    - 회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 정을 대립 가설로 놓는다.

     

    * 회귀분석의 가정 중 선형성, 독립성, 등분산성, 비상관성이 있다. 산점도가 나팔모양이면 오차의 분산이 예측치가 커짐에 따라 커지거나 작아지고 있음을 의미하며 등분산 가정이 무너지고 오차항의 이분산성(Heteroscedasticity)을 가진다.

     

    * 회귀분석에서 결정계수(R2)에 대한 설명

    - 결정계수는 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율이다.

    - 회귀모형에서 입력 변수가 증가하면 결정계수도 증가한다.

    - 다중 회귀분석에서는 최적 모형의 선정기준으로 결정계수 값보다는 수정된 결정계수 값을 사용하는 것이 적절하다.

    - 수정된 결정계수는 유의하지 않은 독립변수들이 회귀식에 포함되었을 때 그 값이 감소한다.

     

    * Durbin Watson test는 회귀 모형 오차항의 자기상관이 있는지에 대한 검정이다. 히스토그램, Q-Q plot, Shaprio-Wilk 검정 등을 활용하여 데이터의 정규성을 확인하다.

     

    * 최적회귀방정식을 선택하기 위한 방법

    - 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다.

    - AIC나 BIC의 값이 가장 작은 모형을 선택하는 방법으로 모든 가능한 조합의 회귀분석을 실시한다.

    - 전진선택법은 설명변수를 추가했을 때 제곱합의 기준으로 가장 설명을 잘하는 변수를 고려하여 그 변수가 유의하면 추가한다.

    - 단계적 방법은 기존의 모형에서 예측 변수를 추가, 제거를 반복하여 최적의 모형을 찾는 방법이므로 전진선택법과 후진선택과 동일한 최적의 모형을 가지는 것은 아니다.

     

    * 시계열분석에서 정상성의 특징

    - 평균이 일정하다. 즉, 모든 시점에 대해 일정한 평균을 가진다.

    - 분산도 시점에 의존하지 않는다.

    - 공분산은 단지 시차에만 의존하고 실제 어느 시점 t,s 에는 의존하지 않는다.

     

    * 시계열을 구성하는 4가지 요소에는 추세(경향)요인, 계절요인, 순환요인, 불규칙요인이 있다.

     

    * 시계열 데이터의 분석 절차

    1. 시간 그래프 그리기

    2. 추세와 계절성을 제거하기

    3. 잔차를 예측하기

    4. 잔차에 대한 모델 적합하기

    5. 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기

     

    * lasso 회귀모형에 대한 설명

    - 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식이다.

    - 자동적으로 변수선택을 하는 효과가 있다.

    - Lambda 값을 penalty의 정도를 조정한다.

    - L1 penalty를 사용한다.

    * 교차분석에 대한 설명

    - 범수의 관찰도수에 비교될 수 있는 기대도수를 계산한다.

    - 교차분석은 교차표를 작성하여 교차빈도를 집계할 뿐 아니라 두 변수들 간의 독립성 검정을 할 수 있다.

    - 기대빈도가 5미만인 셀의 비율이 20%를 넘으면 카이제곱분포에 근사하지 않으며 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 등을 사용한다.

    - 교차분석은 두 문항 모두 범주형 변수일 때 사용되는 분석으로 두 변수간의 관련성을 보기 위해 실시한다.

     

    * 시계열 데이터에 대한 설명

    - 시계열 데이터의 모델링은 다른 분석모형과 같이 탐색 목적과 예측 목적으로 나눌 수 있다.

    - 짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다.

    - 시계열분석의 주목적은 외부인자와 관련해 계절적인 패턴, 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다.

    - 잡음은 무작위적 변동이며 일반적인 원인이 알려져 있지 않다.

     

    * 다차원척도법(MDS)에 대한 설명

    - 다차원척도법은 여러 대상들 간의 관계를 개체들 사이의 유사성/비유사성을 상대적 거리로 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석 방법이다.

    - 다차원척도법의 목적은 데이터 속에 잠재한 패턴을 찾기위해 복잡한 구조를 소수 차원의 공간에 기하학적으로 표현하는 것이다.

    - 스트레스 값이 0.05이하이면 적합정도가 아주 좋은 것으로 해석하고 반복 분석과정을 중단해도 된다.

    - 계량차 다차원척도법(metric MDS)는 비율척도, 구간척도의 데이터를 활용하고 비계량적 다차원척도법(nonmetric MDS)는 순서척도의 데이터를 활용하게 된다.

     

    * 분해 요소에 대한 설명

    - 추세분석은 장기적으로 변해가는 큰 흐름을 나타내는 것으로 자료가 장기적으로 커지거나 작아지는 변화를 나타내는 요소이다.

    - 계절변동은 일정한 주기를 가지고 반복적으로 패턴을 보이는 변화를 나타내는 요소이다.

    - 불규칙변동은 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동을 말한다.

    - 순환변동은 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료를 의미한다.

     

    * 최적방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하는 방법은 무엇인가? 후진제거법(backward elimination)

     

    * 회귀계수 추정량을 최소제곱이라고 한다.

     

    * 번호를 부여한 샘플을 나열하여 k개씩 n개의 구간을 나누고 첫 구간에서 하나를 임의로 선택한 후에 k개씩 띄어서 표본을 선택하고 매번 k번째 항목을 추출하는 표본 추출 방법 : 계통추출법

     

    * 귀무가설(H0)이 옳은데 귀무가설을 받아들이지 않고 기각하게 되는 오류 : 제1종 오류

     

    * “exp()의 의미는 (가)이/가 주어질 때 이 한 단위 증가할 때마다 성공(y=1)의 (가)이/가 몇 배 증가하는지를 나타내는 값이다.” (가)는 무엇인가? 오즈(odds), 승산비

     

    * 시점에 상관없이 시계열의 특성을 일정하다는 것을 의미하는 용어를 무엇이라고 하는가? 정상 시계열

     

    * 자기회귀모형(AR모형, autoregressive model)

    - 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형임

    - 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상 확률 모형

    - 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ...., p차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함

     

    * 상시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법은 무엇인가? 분해 시계열

     

    * 최적회귀방정식을 선택하기 위한 방법 중 모든 독립변수 후보를 포함한 모형에서 시작하여 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명 변수를 제거하는 방법은? 후진제거법(backward elimination)

     

    * 자료의 위치를 나타내는 척도의 하나로 관측치를 크기순으로 배열하였을 때 전체 중앙에 위치한 수치이다. 평균에 비해 이상치에 의한 영향이 적기 때문에 자료의 분포가 심하게 비대칭인 경우 중심을 파악할 때 합리적인 방법인다. - 중앙값

     

    출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)

    반응형

    댓글

Designed by Tistory.