ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP] 3과목 데이터 분석 - 기출문제 해설(5.정형 데이터 마이닝)
    ADsP 2021. 2. 27. 21:04
    반응형

    기출문제 해설(5.정형 데이터 마이닝)

    * 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다.

     

    * 반응 변수가 범주형인 경우 예측모형의 주목적은 분류이다.

     

    * 군집분석은  각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법이다.

     

    * 한 보험회사에서 자사 고객의 보험갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보를 사용하여 예측할 때 가장 적절한 분석 기법은?

    - 랜덤포레스트 분석 기법은 데이터마이닝 방법론의 앙상블 기법 중 하나로 분류분석 문제를 해결하기 위한 의사결정나무와 같은 방법론이지만 의사결정나무에서 나타나는 과대적합/과소적합의 문제를 해결할 수 있다.

     

    * 데이터 가공 단계는 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계이다.

     

    * 지도학습 - 로지스틱 회귀분석, 인공신경망, 의사결정나무, 비지도학습 - SOM

     

    * 과대적합(overfitting)은 통계나 기계학습에서 모델에서 변수가 너무 많아 모델이 복잡하고 과대하게 학습될 때 주로 발생한다.

    - 생성된 모델이 훈련 데이터에 최적화되어 있기 때문에 테스트 데이터의 작은 변화에 민감하게 반응한다.

    - 학습데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생한다.

    - 변수가 너무 많아 모형이 복잡할 때 생긴다.

    - 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방지할 수 있다.

     

    * d가 충분히 크다고 가정할 때 훈련용 집합으로 선정되지 않아 검증용 자료로 사용되는 관측치의 비율 1/e = 0.367879... 이므로 36.8%이다.

     

    * 일반적으로 test set에 대한 모형평가 결과가 train test에 대한 모형평가 결과보다 좋게 나타나는지는 알 수 없다.

     

    * 의사결정나무 모형에 대한 설명

    - 대표적인 적용 사례는 대출신용평가, 환자 증상 유추, 채무 불이행 가능성 예측 등이 있다.

    - ID3, C4.5, CART 등 여러 가지 알고리즘이 있는데 핵심적인 공통 개념은 하향식 기법이 사용되며, 각 진행 단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수 값이 선택된다.

    - 과적합(overfitting)의 문제를 해결하기 위해 가치치기 방법을 이용하여 트리를 조정하는 방법을 사용한다.

    - 불순도 측도인 엔트로피 개념은 정보이론의 개념을 기반으로 하며, 그 의미는 여러 가지 임의의 사건이 모여있는 집합의 순수성(purity) 또는 단일성(homogeneity) 관점의 특성을 정량화해서 표현한 것이다.

     

    * 의사결정나무 모형에서 과대적합되어 현실 문제에 적응할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하기 위해 사용되는 방법

    - 가지치기(Pruning) 단계는 오차를 크게 할 위험이 높거나 부적절한 추론규칙을 가지고 있는 가치 또는 불필요한 가지를 제거하는 단계이다.

     

    * 데이터를 무작위로 두 집단으로 분리하여 실험데이터와 평가데이터로 설정하고 검정을 실시하는 모형 평가방법

    - 홀드아웃 방법은 데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우에 사용하는 모형평가 방법으로 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법이다.

     

    * 소매점에서 물건을 배열하거나 카탈로그 및 교차판매 등에 적용하기 적합한 데이터마이닝 기법

    - 연관분석(association analysis)은 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용하는 분석으로 흔히 장바구니분석 또는 서열분석이라고 불린다.

     

    * 의사결정나무 분석을 수행 시 뿌리마디에서 아래로 내려갈수록 각 마디에서의 불순도는 점차 감소한다.

     

    * 의사결정나무 모형의 학습 방법에 대한 설명

    - 이익도표 또는 검정용 자료에 의한 교차타당성 등을 이용해 의사결정나무를 평가한다.

    - 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받는다.

    - 각 마디에서 최적 분리규칙은 분리변수의 선택과 분리기준에 의해 결정된다.

    - 가지치기는 분류 오류를 크게 할 위험이 높거나 부적절한 규칙을 가지고 잇는 가지를 제거하는 작업이다.

     

    * %Captured Response란 전체에서 해당집단을 분리해내는 비율을 의미하며 Score에 따라 고객을 10개의 집단으로 구분하고, 집단이 누적됨에 따라 전체 재구매 고객 대비 Percentile별 누적 구매 고객의 비율을 나타낸다. 특정 범주의 고객에세 Action을 수행할 경우, 실제 반응이 나타난 고객 중 몇 %의 고객을 확보할 수 있는지에 대한 수치로 해석할 수 있다.

     

    * 배깅은 주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고, 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법이다.

     

    * 앙상블 기법은 배깅(Bagging), 부스팅(Boosting), 랜덤포레스트(Random Forest)이 포함된다. 시그모이드는 인공신경망에서 활성화함수로 쓰인다.

     

    * 앙상블모형에 대한 설명

    - 배깅은 주어진자료에서 여러 개의 붓스트랩(Bootstrap) 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 모형을 만드는 방법이다.

    - 부스팅은 예측력이 약한 모형들을 결합하여 강한 예측모형을 만다는 방법이다.

    - 랜덤 포레스트(Random Forest)는 의사결정나무 모형의 특징인 분산이 크다는 점을 고려하여 배깅보다 더 많은 무작위성을 추가한 방법으로 약한 학습기들을 생성하고 이를 선형 결합해 최종 학습기를 만드는 방법이다.

    - 앙상블모형은 훈련을 한 뒤 예측을 하는데 사용하므로 교사학습법(Supervised Learning이다.

    * 재현율이란 실제 True인 관측치 중에서 True로 예측한 것의 비율이다.

    * 특이도(Specificity) = TN / (TN+FP), 민감도(Sensitivity) = TP / (TP + FN)

    정확도(Precision) = TP / (TP + FP), 재현율(Recall) = TP / (TP + FN), F1 = 2 / (1/Recall + 1/Pricision)

     

    * F1은 정확도(precision)와 재현율(recall)은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있어 이러한 효과를 보정하여 하나의 지표로 만들어 낸 지표이다.

     

    * neuralnet 함수의 실행과로 도출되는 일반화 가중치(generalized weight)는 로지스틱 회귀모형에서의 회귀 계수와 유사하게 해석된다.

     

    * 단층신경망인 퍼셉트론(perceptron)에서 최종 목표값(Target value)은 활성함수에 의해 결정되는데 다양한 활성함수 중 출력 값이 여러 개 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수

    - 활성함수는 Step, Sign, Sigmod, Linear 등이 있고, 그 중 softmax는 출력값이 여러 개로 주어지고 다범주의 사후확률을 제공한다.

     

    * 신경망 모형에 대한 설명

    - 피드포워드 신경망은 정보가 전방으로 전달되는 것으로 생물학적 신경계에서 나타나는 형태이며 딥러닝에서 가장 핵심적인 구조 개념이다.

    - 은닉층의 뉴런수와 개수는 신경망 모형에서 자동으로 설정되지 않으므로 직접 설정해야한다.

    - 일반적으로 인공신경망은 다층퍼셉트론을 의미한다. 다층 퍼셉트론에서 정보의 흐름은 입력층에서 시작하여 은닉층을 거쳐 출력층으로 진행한다.

    - 역전파 알고리즘은 연결강도를 갱신하기 위해 예측된 결과와 실제값의 차이인 에러의 역전파를 통해 가중치를 구하는데서 시작되었다.

     

    * 신경망 모형에 대한 설명

    - 은닉층(hidden layer)의 뉴런 수와 개수를 정하는 것은 신경망을 설계하는 사람의 직관과 경험에 의존한다. 뉴런수가 너무 많으면 과적합(overfittin)이 발생하고 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다.

    - 뉴런은 활성화 함수를 이용해 출력을 결정하며 입력신호의 가중치 합을 계산하여 임계값과 비교한다. 입력변수의 속성에 따라 활성화함수를 선택하지 않는다.

    - 역전파(back propagation) 알고리즘은 신경망 모형의 목적함수를 최적화하기 위해 사용된다. 연결강도를 갱신하기 위해서 예측된 결과와 실게값의 차이인 에러(error)를 통해 가중치를 조정하는 방법이다.

    - 신경망 모형은 변수의 수가 많거나 입출력 변수 간에 복잡한 비선형관계가 존재할 때 유용하며, 잡음에 대해서도 민감하게 반응하지 않는다는 장점을 가지고 있다.

     

    * 로지스틱 회귀모형에서 설명 변수가 한 개인 경우 해당 회귀 계수의 부호가 0보다 작을 때는 역 S자 그래프가 그려진다.

     

    * 회귀모형에 대한 설명

    - 선형회귀의 문제점은 0이하의 값이나 1 이상의 값을 예측값으로 줄 수 있다는 것이며 따라서 이를 확률 값으로 직접 해석할 수 없다.

    - 로지스틱 회귀모형은 클래스가 알려진 데이터에서 설명변수들의 관점에서 각 클래스내의 관측치들에 대한 유사성을 찾는데 사용할 수 있다.

    - 종속변수 y대신 로짓(logit)이라 불리는 상수를 사용하는 것이 아니라 y의 값 범위를 [0, 1]로 조정하기 위하여 로짓(logit) 변환을 사용한다

    - Odds(오즈)란 클래스 0에 속할 확률(1-p)이 클래스 1에 속할 확률 p의 비로 나타난대. 즉, Odds = p/(1-p)로 나타낸다.

     

    * 군집분석에서 거리계산을 수행할 때 사용하는 dist 함수에서 지원하는 거리 측도에는 유클리디안 거리, 표준화 거리, 마할라노비스 거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리가 있다.

     

    * 덴드로그램은 ‘무슨 군집과 무슨 군집이 서로 묶였는지’, ‘어떤 순서와 차례대로 묶여갔는지’, ‘군집 간 거리는 얼마나 되는지’를 알 수 있는 그래프이다.

     

    * 군집분석이란 각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하는 분석 방법이다.

     

    * 와드연결법(ward linkage)은 계층적 군집분석 수행 시 군집 내 편차들의 제곱함을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집을 형성하는 방법이다.

     

    * 유클리디안 거리 계산

     

    * 마할라노비스 거리는 변수의 표준편차와 더불어 변수 간 상관성까지 고려한 거리측도이다.

     

    * k-means 군집에 대한 설명

    - 볼록한 형태가 아닌 군집이 존재하면 성능이 떨어진다.

    - 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.

    - 잡음이나 이상값에 영향을 많이 받는다.

    - k개의 초기 중심값은 임의로 선택이 가능하므로 한번 군집이 형성되어도 군집 내 객체들은 다른 군집으로 이동이 될 수 있다.

     

    * 유사도 측도에 대한 설명

    - 유클리드 거리는 두 점을 잇는 가장 짧은 직선거리이다. 공통으로 점수를 매긴 항목의 거리를 통해 판단하는 측도이다.

    - 맨하튼 거리는 각 방향 직각의 이동 거리 합으로 계산된다.

    - 표준화 거리는 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리이다. 표준화를 하게 되면 척도의 차이, 분산의 차이로 인해 왜곡을 피할 수 있다.

    - 마할라노비스 거리는 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 표준화한 거리이다. 두 벡터 사이의 거리를 산포를 의미하는 표본 공분산으로 나눠주어야 하며, 그룹에 대한 사전 지식 없이는 표본 공분산을 계산 할 수 없으므로 사용하기 곤란하다.

     

    * 군집분석에 대한 설명

    - 비지도학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼를 묶는 방법이다.

    - 군집분석에서는 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화를 유도한다.

    - 군집 결과에 대한 안전성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있다. 데이터를 두 집단으로 나누어 각 집단에서 군집분석을 한 후 합쳐서 군집분석한 결과와 비교하여 비슷하면 결과에 대한 안전성이 있다고 할 수 있다.

    - 군집의 분리가 논리적인가를 살펴보기 위해서는 군집 간 변동의 크기 차이를 검토한다.

    - 개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있다.

     

    * K-means 군집분석에 대한 설명

    - 원하는 군집의 개수를 초기에 정하고 seed 중심으로 군집을 형성한다.

    - 각 개체를 가장 가까운 seed가 있는 군집으로 분류한다.

    - 군집으로 분류된 개체들의 정보를 활용하여 새로운 seed를 계산하면서 개체의 적용에 따른 seed의 변화를 관찰한다.

    - 모든 개체가 군집으로 할당될 때 까지 위 과정들을 반복한다.

     

    * 자기조직화지도(self-organizing map)은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형성화한다.

     

    * 유사도 측도에 대한 설명

    - 유클리드 거리는 공통으로 점수를 매긴 항목의 크기를 통해 판단하는 측도이다.

    - 코사인 거리는 두 단위 벡터의 내적을 이용하여, 단위 벡터의 내각의 크기로 유사도를 측정한다.

    - 자카드는 Boolean 속성으로 이루어진 두 객체 간의 유사도 측정에 사용된다.

    - 군집분석의 유사도 측도로 피어슨 상관계수는 사용하지 않는다.

     

    * SOM 방법에 대한 설명

    - SOM은 입력변수의 위치 관계를 그대로 보존한다는 특징이 있다. 이러한 SOM의 특징으로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.

    - SOM은 역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다. 따라서 실시간 학습처리를 할 수 있는 모형이다.

    - SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울  뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다.

    - SOM은 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습한다. 이와 같은 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.

     

    * 비계층적 군집 방법의 기법인 k-means Clustering의 경우 이상값(Outlier)에 민감하여 군집 경계의 설정이 어렵다는 단점이 존재한다. 이를 극복하기 위해 k-median 군집의 함수 PAM(Partitioning Around Modoids)를 사용한다.

     

    * k-평균 군집으로 대표되는 비계층적 군집 방법에서는 군집의 개수인 k를 미리 정해주어야 한다. 이 때 군집수를 정하는데 집단 내 제곱합 그래프를 활용할 수 있다. k-평균 군집은 초기 중심으로부터 오차 제곱합을 최소화하는 방향으로 군집이 형성되므로 집단 내 제곱합 그래프가 필요하다.

     

    * k평균 군집에 대한 설명

    - k평균군집은 한번 군집이 형성되더라도 다른 군집으로 이동이 가능하다.

    - 초기 군집의 중심을 임의로 선택해야한다.

    - 군집의 개수를 미리 선택해야 한다.

    - 이상점에 영향을 많이 받는다.

     

    * 밀도기반 군집분석이란 어느 점을 기준으로 주어진 반경 내에 최소 개수만큼의 데이터들을 가질 수 있도록 함으로써 특정 밀도함수 혹인 밀도에 의해 군집을 형성해나가는 기법으로 DBSCAN, OPTICS, DENCLUE 등이 있다.

     

    * SOM 방법의 설명

    - 고차원 데이터를 이해하기 쉬운 저차운의 뉴런(Neuron)으로 정렬하여 지도(Map)의 형태로 형상화하는 방법이다.

    - 입력 벡터와 가장 비슷한 연결강도 벡터를 가진 경쟁층의 뉴런이 승자이며, 승자와 그 주변의 경쟁층 뉴런에 대해서만 연결강도를 수행하는 학습 방법이다.

    - 고차원의 표현을 1차원으로 표현할 수 있는 장점이 있다.

    - 지도 형태의 형상화하는 입력변수의 위치 관계를 그대로 보존한다는 특징이 있다.

    - SOM의 특징은 역전파(Back Propagation) 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스(Feed forward flow)를 사용함으로써 속도가 매우 빠르다.

     

    * 최단 연결법(single linkage, nearest neighbor)은 평균 연결법(average linkage)에 대해 계산량이 많지 않다.

     

    * 연관성 분석에 대한 설명

    - Apriori 알고리즘은 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관규칙을 구하는 방법이다.

    - 연관성 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품별 거래 빈도표를 통해 규칙을 찾는데서 시작했다.

    - 품목 A와 품목 B의 구매가 상호 관련이 없다면 향상도는 1이 된다.

     

    * 시차연관분석은 시간이 지남에 따라 어떤 소비형태를 보이는가에 대한 분석으로 원인과 결과의 형태로 해석이 가능해서 결과가 더욱 유용하게 쓰인다.

     

    * k-means 기법은 극도로 큰 값(혹은 작은 값)이 데이터의 분포를 사실상 왜곡할 수 있기 때문에 이상치에 민감하여 군집에서 객체들의 평균값을 취하는 대신에 군집에서 가장 중심에 위치한 객체인 중앙값(median)을 사용하는 k-medoids 군집화 알고리즘이 있다.

     

    * apriori 함수를 활용해 생성한 연관규칙은 inspect() 함수를 통해 확인이 가능하다.

     

    * 향상도는 A와 B가 동시에 포함된 거래수 / (A를 포함하는 거래수 * B를 포함하는 거래수)로 계산할 수 있다.

     

    * 모형 평가방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은 무엇인가? 홀드아웃방법

     

    * 오분류표(Confusion Matrix)를 활용하여 모형을 평가하는 지표 중 범주 불균형(Class Imbalance Problem)을 가지고 있는 데이터에 대한 중요한 범주만을 다루기 위해 사용되는 지표로 실제값이 False인 관측치 중 예측치가 적중한 정도를 나타내는 지표를 무엇인가? Specificity(특이도)

     

    * 베이즈 정리(Bayes Theory)와 특징에 대한 조건부 독립을 가설로 하는 알고리즘으로 클래스에 대한 사전 정보와 데이터로부터 추출된 정보를 결합하고 베이즈 정리를 이용하여 어던 데이터가 특정 클래스에 속하는지를 분류하는 알고리즘은 무엇인가? 나이브 베이지안 분류

     

    * 신경망 모형에서 표준화 지수 함수로 불리면, 출력값 z가 여러개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수는? softmax 함수

     

    * 두 개체 간의 거리에 기반하여 군집을 형성해가는 계층적 군집방법에서 사용되는 측도 중 두 개체의 벡터 내적을 기반하여 아래의 수식으로 계산할 수 있는 유사성 측도는 무엇인가? 코사인 유사도(consine similarity)

     

    * 혼합분포군집(mixture disribution clustering)은 모형 기반의 군집 방법으로서 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정 하에서 분석을 하는 방법이다. k개의 각 모형은 군집을 의미하며 이 혼합모형의 모수와 가중치의 최대가능도(Maximum Likelihood)추정에 사용되는 알고리즘은 무엇인가? EM(Expectation-Maximization) 알고리즘

     

    * 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(cohesion)와 군집간 분리도(separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지면 완벽한 분리일 경우 1의 값을 가지는 지표는? 실루엣(silhouette)

    *

    * SOM(Self-Organizing Maps)에서는 각 학습 단계마다 입력층의 데이터 집합으로부터 하나의 표본 벡터를 임의로 선택하고 경쟁층의 프로토타입 벡터와의 거리를 계산하고 가장 가까운 프로토타입 벡터를 선택하는데 이 때 선택된 프로토타입 벡터를 나타내는 용어는 무엇인가? BMU(Best-Matching Unit)

     

    * 랜덤 모델과 비교하여 해당 모델의 성관가 얼마나 좋아졌는지를 각 등급별로 파악하는 그래프로 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다. 모형 평가에서 사용되는 이 그래프는 무엇인가? 향상도곡선

     

    출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)

    반응형

    댓글

Designed by Tistory.