ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP] 모의고사 해설
    ADsP 2021. 3. 1. 22:43
    반응형

    모의고사(ADsP) 1회

    * 데이터베이스의 특징

    - 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어 있다.

    - 데이터베이스는 통합된 데이터(intefrated data)다.

    - 데이터베이스는 변화하는 데이터로 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 한다.

    - 데이터베이스의 일반적인 특징 4가지는 통합된 데이터, 저장된 데이터, 공용 데이터, 운영 데이터이다.

     

    * 데이터 사이언티스트에게 요구되는 소프트 역량은 창의적 사고, 호기심, 스토리텔링, 커뮤니케이션 등이 있다.

     

    * 클라우드 컴퓨팅의 보편화는 빅데이터의 처리 비용을 획기적으로 낮춰 경제성을 제공했다.

     

    * 빅데이터 관점에서 사물인터넷은 사물에서 나오는 데이터를 활용해 더욱 지능화 된 기기 활용을 할 수 있도록 데이터를 수집하여야 하므로 모든 사물에서 데이터를 추출할 수 있어야 한다. = 데이터화(datafication)

     

    * 분석 기획 시 고려사항은 분석의 기본이 되는 데이터에 대한 고려, 활용 가능한 유즈케이스 탐색, 분석 수행에 있어 발생하는 장애요소들에 대한 사전 계획 수립이다.

     

    * 하향식 접근방법의 과정

    - 기업의 내/외부 환경을 포괄하는 비즈니스 모델과 외부 사례를 기반으로 문제를 탐색

    - 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의한다.

    - 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해 타당성을 평가한다.

    - 하향식 접근법은 문제탐색 -> 문제정의 -> 해결방안 탐색 -> 타당성 검토로 전개된다.

     

    * 시장 니즈 탐색 관점에서 고객 니즈의 변화는 고객, 채널, 영향자들에 의해 진행된다.

     

    * Political (정치영역)은 주요 정책 방향, 정세, 지정학적 동향 등의 거시적인 흐름을 토대로 분석 기회를 도출한다.

     

    * 분석 프로젝트 영역별 주요 관리 항목에는 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스트, 의사소통, 이해관계자 등이 있다.

     

    * 분석 과제 관리 프로세스에 대한 설명

    - 분석 아이디어 발굴, 분석과제 후보제안, 분석과제 확정 프로세스는 과제 발굴 단계에 속해 있다.

    - 분석과제 중에 발생된 시사점과 분석 결과물은 풀(pool)로 관리하고 공유된다.

    - 과제 수행 단계에서는 팀 구성, 분석과제 식별, 분석과제 진행관리, 결과 공유 프로세스가 있다.

    - 확정된 분석과제는 풀(pool)로 관리하지 않는다.

     

    * 기능구조는 별도 분석조직이 없고 해당 업무부서에서 분석을 수행한다. 전사적 핵심분석이 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성이 높다.

     

    * 모형을 개발하기 위해서는 학습 데이터와 테스트 데이터로 구분을 해서 학습 데이터로 모델을 개발하고 테스트 데이터로 모델의 적중률을 확인한다. 학습 데이터를 너무 과대하게 학습한 경우, 과대 적합의 문제가 발생하여 테스트 데이터의 적중률은 떨어지고 일반화하기 힘들어 진다.

     

    * 구간척도 : 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간사이의 간격의 의미가 있는 자료(온두, 지수)이다.

     

    * 모분산의 추론에 대한 설명

    - 이표본에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.

    - 모분산이 추론의 대상이 되는 경우는 모집단의 변동성 또는 퍼짐의 정도에 관심이 있을 때이다.

    - 모집단이 정규분포를 따르지 않더라도 중심극한 정리를 통해 정규 모집단으로부터의 모분산에 대한 검정을 유사하게 시행할 수 있다.

    - 평균모집단에서 n개를 단순임의 추출한 표본의 분산은 카이제곱분포를 따른다.

     

    * 다중회귀분석에서 변수선택방법에 대한 설명

    - 전진선택법(forward selection)은 상수항만 포함된 모형에서 출발하여 설명력이 좋은 변수를 하나씩 추가하는 방법이다.

    - 단계적 방법(stepwise method)은 설명력이 나쁜 변수를 제거하거나 모형에서 제외된 변수 중 모형의 설명력을 가장 잘 개선하는 변수를 추가하는 방법이다.

    - 후진제거법(backward elimination)은 모든 변수가 포함된 모형에서 설명력이 나쁜 변수를 하나씩 제거하는 방법이다.

    - 다중회귀분석에서 변수선택법은 전진선택법, 후진제거법, 단계적 선택법이 있다.

     

    * 이항분포는 이산형 확률분포이고, 정규분포, T분포, F분포는 연속형 확률분포이다.

     

    * 표본 추출 방법에 관한 설명

    - 표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지에 대한 대표성이 확보이다.

    - 단순랜덤추출법은 모집단에서 샘플을 뽑을 때 각각의 샘플이 모두 동등한 확률을 가지고 무작위로 추출되는 방법이다.

    - 집락추출법은 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출하는 다단계 추출 방법이다.

    - 층화추출법은 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려하여 각 집단마다 샘플을 추출하는 방식이다.

     

    * 자료가 추출된 모집단의 분포에 아무 제약을 가하지 않고 검정을 실시하는 방법이 비모수 검정이며 비모수 검정방법에는 부호검정, 윌콕슨의 순위합검정, 만-위트니의 U검정, 런 검정, 스피어만의 순위상관계수 등이 있다.

     

    * 두 변량 X, Y의 상관분석에 관한 내용

    - 등간척도로 측정된 두 변수간의 상관관계는 피어슨 상관계수(Pearson correlation)을 통해 확인할 수 있다.

    - 상관계수가 0이면 두 변량 X, Y사이에 선형관계가 없다.

    - 서열척도로 측정된 두 변수간의 상관관계는 스피어만 상관계수(Spearman correlation)를 통해 확인할 수 있다.

    - R에서 상관계수를 구하기 위해서는 cor()함수 또는 rcorr()함수를 사용하여야 한다.

    - rcorr()함수를 사용하면 type인자를 통해 피어슨과 스피어만 상관계수를 선택할 수 있다.

     

    * 회귀분석에서 나온 결정계수(R2)에 대한 설명

    - 총제곱의 합 중 설명된 제곱의 합의 비율을 뜻한다.

    - 종속변수에 미치는 영향이 적더라도 독립변수가 추가되면 결정계수는 변한다.

    - R2의 값이 클수록 회귀선으로 실제 관찰치를 예측하는데 정확성이 높아진다.

    - 독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같다.

     

    * 정상성(stationarity)의 특징에 관한 설명

    - 평균이 일정하다. 즉 모든 시점에 대한 일정한 평균을 가진다.

    - 분산도 시점에 의존하지 않는다.

    - 공분산은 단지 시차에만 의존하고 실제 어느 시점 t, s에는 의존하지 않는다.

     

    * 시계열에 관한 설명

    - 대부분의 시계열은 비정상 자료이다. 그러므로 비정상 자료를 정상성 조건에 만족시켜 정상 시계열로 만든 후 시계열 분석을 한다.

    - 시계열이 정상 시계열인지 비정상 시계열인지 판단하기 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 관찰해야한다.

    - 비정상 시계열은 정상 시계열로 변경하고자 할 때 변환과 차분의 방법을 사용한다.

    - 일반적으로 평균이 일정하지 않은 비정상 시계열은 차분을 통해, 분산이 일정하지 않은 비정상 시계열은 변환을 통해 정상 시계열로 바꾼다.

     

    * 회귀분석의 가정은 선형성, 등분산성, 독립성, 비상관성, 정규성이 있다.

     

    * R에서 지원하는 분류(Classification) 방법으로는 rpart, rpartOrdinal, randomForest, party, tree, marginTree,, MapTree 등 다양한 방법이 있다.

     

    * ROC 도표는 구축한 모형의 성능을 사후확률과 각 분류기준값에 의해 오분류 행렬을 만든 다음, x축은 1-특이도, y축은 민감도로 설정하여 그려지는 모형을 평가하는 지표이다.

     

    * K-means 군집분석과 계층적 군집분석의 차이

    - K-means 군집분석은 계층적 군집분석과는 달리 한 개체가 처음 속한 군집에서 다른 군집으로 이동해 재배치 될 수 있다.

    - K-means 군집분석은 초기값에 대한 의존이 커서 초기값을 어떻게 하느냐에 따라 군집이 달라질 수 있다.

    - 계층적 군집분석은 동일한 거리계산법을 적용하면 몇 번을 시행해도 동일한 결과가 나온다.

     

    * 장바구니에 함께 구매한 상품 데이터를 이용해 분석한 결과 ‘아메리카노를 마시는 손 중 10%가 브라우니를 먹는다.’, ‘샌드위치를 먹는 고객의 30%가 탄산수를 함께 마신다’와 같은 결과를 얻어내는 방법론을 연관성 분석(장바구니 분석)이라고 한다.

     

    * 이상값을 검색하여 한 집단에서 매우 크거나, 매우 작으면 의심되는 대상이므로 부정사용방지 시스템에 활용이 가능하다.

     

    * 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보 할 수 있는 데이터변환 방법은 무엇인가? 마스킹(masking)

     

    * 데이터(ㄱ)이란 데이터베이스 내의 데이터에 대한 정확성 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 혹은 수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다. 무결성(intefrity)

     

    * 데이터 분석 기획을 위해서 데이터 분석 수준진단이 필요하다. 분석 준비도와 분석 성숙도를 통해 데이터 분석 수준을 진단하게 되는데, 분석준비도 6개의 영역 중 2가지를 적으시오.

    분석 업무, 분석 인력/조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라

     

    * 비즈니스 모델 캔버스는 9가지 블록을 단순화하여 (ㄱ), (ㄴ), 고객단위로 문제를 발굴하고 이를 관리하는 규제와 감사, (ㄷ) 영역으로 나눠 분석 기회를 도출한다. ㄱ:업무, ㄴ:제품, ㄷ:지원 인프라

     

    * 이것은 데이터 안의 두 변수 간의 관계를 알아보기 위해 사용하는 값이다. 두 변수간의 공분산으로는 음과 양의 관계를 파악할 수 있으나 관계 정도를 확인하기는 힘들다. 그래서 각 변수의 표준편차를 곱하여 공분산을 나누어 -1에서 1사이 값으로 표준화하여 두 변수 간의 관계 정도를 확인 할 수 있도록 수치화 한 이것을 활용한다. 이것은 무엇인가? 상관계수(correlation)

     

    * 우리는 모집단을 조사하기 위해 추출한 모집단의 일부 원소를 이용한다. 통계자료의 획득 방법 중 모집단을 조사하기 위해 추출한 집단을 무엇이라고 하는가? 샘플(Sample)

     

    * 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 데이터 마이닝 기법은? 순차 분석(Sequence Analysis)

     

     

     

     

     

     

     

    모의고사(ADsP) 2회

    * B2B기업은 기업 간의 전자 상거래를 진행하여 지속적인 데이터가 생성이 되기 어렵다. 반면에 B2C기업은 고객을 상대로 하기 때문에 고객의 데이터가 지속적으로 생성이 된다.

     

    * DIKW 피라미드에서 우량고객, 베스트셀러, 평균 구매액은 정보(Information)에 해당되고 주문수량은 데이터(Data)에 해당된다.

     

    * 민주주의 국가에서 채택한 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있다. 특정인이 빅데이터 분석 결과에 따라 특정한 행위를 할 가능성이 높다는 이유만으로 처벌 받은 것은 행위 결과에 대해서만 책임을 묻는다는 사회 원칙을 크게 훼손 할 수 있다.

     

    * 구글의 ‘Ngram Viewer’를 통해 우리가 확인하기 힘들었던 부분을 찾을 수 있도록 해 주는 빅데이터의 비유는 “렌즈”이다.

     

    * 빅데이터의 가치 산정이 어려운 이유

    - 데이터 활용방식 : 재사용, 재조합, 다목적용 개발

    - 새로운 가치 창출

    - 분석 기술 발전

     

    * 인문학 열풍 중 최근 사회경제적 환경의 변화

    - 단순 세계화에서 복잡한 세계화로 변화하고 있다.

    - 비즈니스의 중심이 제품생산에서 서비스로 이동되었다.

    - 경제와 산업의 논리가 생산에서 시장창조로 바뀌었다.

    - 기존 사고의 틀을 벗어나 문제를 바라보고 창의적으로 문제를 해결하는 능력이 요구되고 있다.

     

    * 가명처리는 개인정보 주체의 이름을 다른 이름으로 변경하는 기술이다.

     

    * 데이터 전처리 프로세스를 통하여 분석용 데이터 셋이 편성되면 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터마이닝을 효율적으로 적용될 수 있도록 데이터셋을 변경하는 프로세스를 데이터 변환이라고 한다.

     

    * CRISP-DM에 대한 설명

    - 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되어 SPSS, NCR, Daimler Chrysler 등이 참여하였다.

    - 모델링과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행 할 수 있다.

    - CRISP-DM은 계층적 프로세스 모델로써 4레벨로 구성되어 있다.

     

    * 비즈니스 모델 캔버스를 활용한 과제 발굴 영역에 대한 설명

    - 업무 : 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 도출

    - 제품 : 생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출

    - 고객 : 제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출

    - 규제와 감사 : 제품 생상 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출

    - 지원 이프라 : 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출

     

    * 상향식 접근방식에 대한 설명

    - 상향식 접근방식의 데이터 분석은 비지도 학습방법에 의해 수행된다.

    - 인과관계로부터 상관관계분석으로의 이동이라는 변화를 만들었다.

    - 사물을 있는 그대로 인식하는 ‘What’관점에서 접근한다.

     

    * 분석 과제의 주요 관리 영역에는 Data Size, Data Complexity, Speed, Analytic&Complexity, Accuracy&Precision가 있다.

     

    * 분석 거버넌스 체계 구성요소는 Process(과제 기회/운영 프로세스), System(IT 시스템/프로그램), Organization(분석 기획/관리 및 추진 조직), Data(데이터 거버넌스), Human Resource(분석 관련 교육/마인드 육성 체계)가 있다.

     

    * 포트폴리오 사분면에서 분석이 현재 부분적으로 도입되어 지속적인 확산이 필요한 기업들을 확산형 기업이라고 정의한다.

     

    * 분석 프로젝트 관리에 대한 설명

    - 분석 프로젝트 관리는 프로젝트관리 지침(KSA ISO 21500:2013)을 가이드로 활용할 수 있다.

    - 데이터 분석 모델의 품질을 평가하기 위해 SPICE를 활용할 수 있다.

    - 분석 프로젝트의 최종 결과물이 분석 보고서 형태 또는 시스템인지에 따라 프로젝트 관리에 차이가 있다.

    - 분석 프로젝트 관리에서 일정계획 수립시 데이터 수집에 대한 철저한 통제와 관리보다 분석 범위가 빈번하게 변경되므로 시간이 소요될 수도 있다. 따라서 Time Boxing 기법과 같은 방법으로 일정관리를 진행하는 것이 필요하다.

     

    * 기하, 이항, 초기화 분포는 이산형 확률분포이다.

     

    * R에서 사용가능한 데이터 오브젝트에 관한 설명

    - 차원을 가진 벡터를 행렬이라고 한다.

    - 리스트에서 원소들은 다른 모드여도 상관없다.

    - 벡터에서 모든 원소는 같은 모드여야 한다.

    - 데이터프레임은 테이블로 된 데이터 구조로써 리스트로 표현된다.

     

    * 다중선형회귀분석의 종속변수를 설명하는 가장 중요한 독립변수는 추정한 계수가 클수록 종속변수에 가장 영향을 많이 미치게 된다. 특히 B0가 없는 표준화된 추정식을 만들게 되면 각 계수의 크기를 더욱 정확히 알 수 있게 된다.

     

    * 중심극한정리(Central Limit Theorem)에 대한 설명

    - 여러 통계적 방법론에는 정규데이터가 필요하지만 중심극한 정리를 사용하면 비정규적인 모집단에도 이와 유사한 절차를 적용할 수 있다.

    - 표본평균의 분포는 표본의 크기가 커짐에 따라 정규분포로 근사한다.

    - 모집단의 분포가 대칭이면 표본의 크기가 작아도 되지만 모집단의 분포가 비대칭이면 표본의 크기가 30이상이 되어야 한다.

    - 동일한 확률분포를 가진 독립 확률 변수의 분포는 n이 적당히 크다면(n은 30이상) 정규분포에 가까워진다는 정리이다.

     

    * 데이터의 척도에 관한 설명

    - 명목척도는 측정 대상이 어느 집단에 속하는지 분류할 때 사용되며 성별, 출생지 정보가 해당된다.

    - 순서척도는 측정 대상이 순서를 갖는 자료를 의미하며, 만족도, 선호도, 학년, 신용등급 정보가 해당된다.

    - 구간척도는 측정 대상의 순서와 순서 사이의 간격이 의미가 있는 자료를 의미하며 온도, 물가지수, 주가지수 정보가 해당된다.

    - 비율척도는 측정대상의 간격에 대한 비율이 의미를 가지는 자료를 의미하고 무게, 나이, 시간, 거리 정보가 해당된다.

     

    * 확률변수에 관한 설명

    - 확률변수는 특정값이 나타날 가능성이 확률적으로 주어지는 변수이며, 실수값으로 표현된다.

    - 이산형 확률변수는 확률변수의 공간이 유한하거나 셀 수 있는 경우를 의미하며 이항분포, 기하분포, 다항분포, 베르누이 확률분포, 포아송 분포가 해당된다.

    - 균일분포는 확률변수의 구간[a, b] 내에서 모든 확률이 동일한 분포를 의미하며 확률은 1/(b-a)가 된다.

     

    * 회귀분석에서 변수 선택법에 대한 설명

    - 전진선택법은 중요하다고 생각되는 설명변수부터 차례로 선택하는 방법이다.

    - 전진선택법과 후진선택법의 결과가 항상 동일하지는 않다.

    - 모든 가능한 회귀모형은 독립변수들의 조합으로 이루어진 회귀모형 중 가장 적합하게 나타난 모형을 선택하는 방법이다.

    - 다중회귀분석에서 변수 선택법 중 전진선택법은 변수가 추가 되면 기존 변수들의 중요도에 영향을 받게 된다. 다시 말해, 변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수를 활용하지 못하게 된다.

     

    * 분해 시계열에 대한 설명

    - 분해 시계열이란 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법을 말한다.

    - 분해 시계열의 분해 요소는 추세요인, 계절요인, 순환요인, 불규칙요인으로 크게 4가지로 이루어진다.

    - 추세요인은 자료의 형태가 오르거나 내리는 추세를 따르는 경우로 선형적 형태, 지수 형태 등이 있다.

    - 순환요인은 경제적이나 자연적인 이유가 없이 알려지지 않은 주기를 가지고 변화하는 자료 형태이다.

     

    * 다중회귀분석의 결과에서 모형의 적절함을 확인하기 위해서는 F 검정 통계량과 유의확률, t 통계량과 유의확률, R2값을 검정해야 한다. 상관계수를 통해 모형의 설명력을 확인하는 것은 회귀분석 이전의 단계에서 실행해야한다.

     

    * 주성분분석에 대한 설명

    - 다변량 자료를 저차원의 그래프로 표시하여 이상치(Outlier) 탐색에 사용한다.

    - 변수들끼리 상관성이 있는 경우, 해석상의 복잡한 구조적 문제가 발생하는데 이를 해결하기 위해 사용한다.

    - 회귀분석에서 다중공선성(Multicollinearity)의 문제를 해결하기 위해 활용한다.

    - p개의 변수들을 중요한 m(p)개의 주성분으로 표현하여 전체 변동을 설명하는 것으로 m개의 주성분은 원래 변수에서 선형결합으로 생성된 변수이다.

     

    * 데이터마이닝을 위한 데이터 분할에 대한 설명

    - 데이터를 구축용(training), 검정용(validation), 시험용(test)으로 분리한다.

    - 일반적으로 데이터 구축용, 검정용, 시험용 데이터는 50%, 30%, 20%로 정한다.

    - 데이터가 충분하지 않을 때는 구축용과 시험용 데이터만 구분하여 활용한다.

    - 필요에 따라서는 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가하기도 한다.

     

    * 의사결정나무 분석의 특성

    - 의사결정나무 모형의 결과는 누구나 이해가 쉽고 설명이 용이하다.

    - 의사결정나무 알고리즘의 모형 정확도는 다른 분류모형에 뒤지지 않는다.

    - 의사결정나무 알고리즘은 대용량 데이터에서도 빠르게 만들 수 있고 데이터의 분류 작업도 신속히 진행할 수 있다.

    - 의사결정나무 알고리즘은 비정상적인 잡음 데이터에 대해서도 민감함이 없이 분류할 수 있다.

     

    * 비모수적 방법에 대한 설명

    - 관측된 자료가 주어진 분포를 따른다는 가정에 받아들일 수 없을 때 이용하는 검정법이다.

    - 자료가 추출된 모집단의 분포에 대해 제약을 가하지 않고 검정을 실시하는 방법이다.

    - 관측된 자료가 특정 분포를 따른다고 가정할 수 없을 때 이용한다.

    - 비모수 검정 방법은 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하고 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용한다. 또 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우 이용한다. 관측된 자료로 구한 표본평균과 표본분산 등을 이용해 검정을 실시하는 것은 모수적검정 방법이다.

     

    * 비계층적 군집분석의 장점에 대한 설명

    - 주어진 데이터의 내부 구조에 대한 사전 정보가 없어도 의미 있는 결과를 얻을 수 있다.

    - 다양한 형태의 데이터의 적용이 가능하다.

    - 분석방법의 적용이 용이하다.

    - 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.

     

    * 지지도 : 전체 거래 중 품목 A와 품목 B를 동시에 포함하는 거래의 비율이며, 신뢰도 : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같아 포함될 확률은 어느 정도인가를 나타내 주는 연관성의 정도이며, 향상도 : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가비율이다.

     

    * 과대적합(overfitting)에 대한 설명

    - 과대적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트하는 과정을 반복해 과대적합을 방지할 수 있다.

    - 과대적합은 분석 변수가 너무 많이 존재하고 분석 모델이 복잡할 때 발생한다.

    - 분석 데이터가 모집단의 특성을 설명하지 못하면 발생한다.

    - 생성된 모델이 훈련 데이터에 최적화되어 있기 때문에 테스트 데이터의 작은 변화에 민감하게 반응한다.

     

    * 인터넷상의 서버에서 데이터 저장, 처리, 네트워크, 콘텐츠 사용 등 서로 다른 물리적인 위치에 존재하는 컴퓨팅 자원을 가상화 기술을 통해 IT 관련 서비스를 한 번에 제공하는 혁신적인 컴퓨팅 기술은 무엇인가?

    - 클라우드 컴퓨팅

     

    * 데이터 사이언스란 데이터로부터 의미있는 정보를 추출하는 학문이다. 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 ( ) 을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.

    - 비정형

     

    * 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것은 무엇인가?

    - 분석 유즈 케이스

     

    * 고객은 늘 구매하지 않는다. 경쟁사의 고객 빼앗기에 따른 고객의 변심 또는 고객의 니즈나 취향이 변해 더 이상 상품과 서비스를 사용하지 않고 경쟁사와 거래하는 고객을 무엇이라고 하는가?

    - 이탈고객

     

    * 의사결정나무 중 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?

    - CART

     

     

    * 데이터마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로 랜덤한 forest에는 많은 트리들이 생성된다. 새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 방식의 R 패키지는 무엇인가?

    - 랜덤 포레스트(random forest)

     

    * 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습(meta learning)이라 한다. 여러 분류기(classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은?

    - 앙상블 기법

     

    출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)

    반응형

    댓글

Designed by Tistory.