-
[ADsP] 주관식 정리ADsP 2021. 3. 7. 23:52반응형
기출문제 27회
* 아래는 빅데이터가 만들어 내는 본질적인 변화이다. (A)와 (B)에 들어갈 말을 쓰시오.
「(A)은(는) 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고, (B)은(는) 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다. 」
(A) : 인과관계, (B) : 상관관계
* 빅데이터가 만들어 내는 본질적인 변화
사전처리 -> 사후처리 : 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
표본조사 -> 전수조사 : 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용방법이 변화되었다.
질 -> 양 : 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다.
인과관계 -> 상관관계 : 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
* 아래는 빈칸에 공통적으로 들어갈 용어는?
「 가) 페이스북은 2006년 F8 행사를 기점으로 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작하면서 ( ) 역할을 하기 시작했다.
나) 하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 ( ) 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다. 아마존(Amazon)은 S3와 BC2 환경을 제공함으로써 ( )을(를) 위한 클라우드 서비스를 최초로 실현하였다.」
- 플랫폼 (용도에 따라 다양한 형태로 활용될 수 있는 공간이라는 단어로 4차 산업혁명시대의 소프트웨어, 서비스로 확장되어 활용되는 개념이다.)
* 아래 (가) 안에 들어갈 용어를 기입하시오.
「문제 탐색을 통해서 식별된 비즈니스 문제를 변환하는 단계로써, 문제 탐색 단계가 무엇을 어떤 목적으로 수행해야 하는가에 대한 관점이었다면, (가) 단계는 이를 달성하기 위해서 필요한 데이터 및 기법(How)을 도출하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다.」
- 문제 정의 (식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이다.)
* 하향식 접근법
1. 문제 탐색 : 비즈니스 모델 기반 문제 탐색, 외부 사례 기반 문제 탐색(=벤치마킹)
2. 문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의
3. 해결 방안 탐색 : 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색
4. 타당성 검토 : 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서 경제성, 데이터, 기술적 타당성분석이 수행되어야 한다.
* 아래 ( ) 안에 들어갈 용어느?
「분석용 데이터를 이용한 가설 설정을 통하여 통계모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정」
- 모델링 (훈령용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만든다.)
* 제 1주성분의 식은?
Murder * 0.54 + Assault * 0.58 + UrbanPop * 0.28 + Rape * 0.54
* 원 자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리를 형성해 나가는과정은 유사하나, 각 노드마다 모든 예측변수 안에서 최적의 분할을 선택하는 대신 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용하는 기법?
- 랜덤 포레스트 (의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만든 방법이다.)
* 신경망 모형에서 표준화 지수 함수로 불리며, 출력값 z가 여러 개로 주어지고, 목표치가 다범주인 경우 각 범주에 속할 사후 확률을 제공하여 출력노드에 주로 사용되는 함수는?
- 소프트맥스 함수 (분류해야하는 정답지(클래스)의 총 개수를 k라고 할 때, k차원의 백터를 입력받아 각 클래스에 대한 확률을 추정한다.)
* 뉴런의 활성화 함수
- 시그모이드 함수의 경우 로지스틱 회귀분석과 유사하며, 0~1의 확률값을 가진다.
- softmax 함수 : 표준화지수 함수로도 불리며, 출력값이 여러개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수이다.
- Relu 함수 : 입력값이 0이하는 0, 0이상은 x값을 가지는 함수이며, 최근 딥러닝에서 많이 활용하는 활성화함수이다.
* 회귀무형의 계수를 추정하는 방법으로써 잔차제곱합(SSR)을 최소화하는 계수를 찾는 방법을 무엇이라고 하는가?
- 최소제곱법 (근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법이다.)
* 로지스틱 회귀분석에서 어떠한 일이 일어날 확률을 일어나지 않을 확률로 나누어 log를 취하고 이를 0~1의 값이 아닌 (-∞ , +∞ ) 범위에서 선형함수를 시그모이드 함수로 변환하는 방법은 무엇인가?
- 로짓 변환 (y를 log(y/1-y)로 만드는 함수적 변환을 말하며, 이 함수를 시그모이드 함수라고 한다.)
기출문제 26회
* 다음 내용이 설명하고 있는 빅데이터의 역할로 알맞은 것은?
「이것은 비즈니스 측면에서 일반적으로 ‘공동 활용의 목적으로 구축된 유무형의 구조물을’의미한다. 각종 사용자 데이터나 M2M센서 등에서 수집된 데이터를 가공 〮 처리 〮 저장해두고 이 데이터에 접근할 수 있도록 API(Application Program Interface)를 공개한다. 그러면 다양한 서드파티(3RD-PARTY )사업자들이 비즈니스에 필요한 정보를 추출해 활용하게 되고 빅데이터는 그 자체로 이 역할을 수행하게 된다.」
- 플랫폼 (용도에 따라 다양한 형태로 활용될 수 있는 공간이라는 단어로 4차 산업혁명시대의 소프트웨어, 서비스로 확장되어 활용되는 개념이다.)
* 아래에 설명한 빅데이터 활용테크닉은 무엇인가?
「데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터로 지식을 추출하기 위한 것이다.」
- 정보 (데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것이다.)
* 아래 ( )안에 들어갈 용어로 적절한 것은?
「데이터 표준화는 데이터표준 용어 설정, 명명규칙(name rule) 수립, ( )구축, 데이터 사전(Data Dictionary) 구축 등의 업무로 구성된다. 데이터 표준 용어는 단어 사전, 표준 도메인 사전, 표준 코드 등으로 구성되며 사전 간 상호 검증이 가능하도록 점검 프로세스를 포함해야 한다.」
- 메타데이터 (데이터의 데이터로 데이터에 관한 구조화된 데이터로 다른 데이터를 설명해주는 데이터이다.)
* 다음 중 빈칸에 공통으로 들어갈 알맞은 단어를 적으시오.
「( )란 전사차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운용조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말한다. 특히 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionay)은 ( )의 중요한 관리 대상이다.」
- 데이터 거버넌스
* 다음 내용이 설명하고 있는 단어를 적으시오.
「이것은 배깅에 랜덤과정을 추가한 방법이다. 원 자료로부터 붓스트랩 샘플을 추출하고, 각 붓스트랩 샘플에 대해 트리플 형성해 나가는 과정은 배깅과 유사하나, 각 노드마다 모두 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측변수를 임의로 추출하고 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용한다.」
- 랜덤 포레스트 (의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법이다.)
* 다음 내용이 설명하고 있는 단어를 적으시오.
「코호넨에 의해 제시되었으며, 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 클러스터링 방법은 무엇인가?」
- SOM
* 다음 내용이 설명하고 있는 그래프를 적으시오.
「레이더 이미지 분석의 성과를 측정하기 위해 개발된 이 그래프는 두 분류 분석 모형을 비교 분석 결과를 가시화 할 수 있다는 점에서 유용한 평가도구이다. X축에는 FP Ratio(1-x특이도)를 나타내며 y축에는 민감도를 나타내 두 평가 값의 관계로 모형을 평가한다. 모형의 성과를 평가하는 기준은 그래프의 밑 부분 면적이 넓을수록 좋은 모형으로 평가한다.」
- ROC Curve
* 다음 내용이 설명하고 있는 것을 적으시오.
「 - 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형임
- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 정상확률 모형
- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ..., P차 등을 사용하나 정상시계열 모형에서는 주로 1, 2차를 사용함」
- AR 모형
* 시계열모형
- 자기회귀 모형(AR 모형) : p 시점 전의 자료가 현재 자료에 영향을 주는 모형이다.
- 이동평균 모형(MA 모형) : 유한한 개수의 백색잡음의 결합이므로 언제나 정상성을 만족
- 자기회귀누적이동평균 모형(ARIMA(p, d, q) 모형) : 비정상시계열 모형, 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합치 ARMA 모형으로 정상화 할 수 있다.
기출문제 25회
* 다음에 설명에 맞는 데이터 유형은 무엇인가?
「 - 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여한 데이터
- 지식을 도출할 때 사용하는 데이터」
- 정보
* 아래에 설명한 빅데이터 활용테크닉은 무엇인가?
「은행에서 대출심사를 할 때 소득, 카드사용액, 나이 등 해당 고객의 개인적인 정보를 바탕으로 그 고객이 대출 상환을 잘하는 집단에 속할지, 그렇지 않은 집단에 속할지를 예측할 수 있다. 」
- 분류분석, 유형분석
* 빅데이터 활용 기본 테크닉
- 연관규칙학습 : 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
- 유형분석 : 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
- 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화(evolve)시켜 나가는 방법
- 기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
- 회귀분석 : 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용
- 감정분석 : 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 소셔네트워크분석(=사회관계망분석) : 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
* 아래 ( )안에 들어갈 용어로 적절한 것은?
「분석 과제 관리 프로세스는 크게 과제 발굴과 과제수행으로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석과제가 확정되면 ( ), 분석과제 결과 공유/개선의 분석과제 관리 프로세스를 수행하게 된다.」
- 팀구성, 분석과제 실행, 분석과제 진행관리
* 분석 과제 관리 프로세스
- 과제발굴 : 분석 아이디어 발굴 -> 분석과제 후보 제안 -> 분석과제 확정
- 과제수행 : 팀구성 -> 분석과제 실행 -> 분석과제 진행 관리 -> 결과 공유/개선
* 합리적 의사결정을 방해하는 요소로써 표현 방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상을 무엇이라 하는가?
- 프레이밍(Framing)
* 아이템에 대한 설명과 사용자 선호를 기반으로 하여 과거 사용자가 좋아했던 것과 비슷한 아이템을 추천하는 알고리즘은 무엇인가?
- 내용 기반 필터링(Content-based filtering)
* 시계열의 수준과 분산에 체계적인 변화가 없고 엄밀하게 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 시계열 용어는?
- 정상성
* 정상성
1) 평균이 일정할 경우
- 모든 시점에 대해 일정한 평균을 가진다.
- 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화할 수 있다.
2) 분산이 일정
- 분산도 시점에 의존하지 않고 일정해야 한다.
- 분산이 일정하지 않을 경우 변환(Transformation)을 통해 정상화할 수 있다.
3) 공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않는다.
기출문제 23회
* 아래에 설명하는 (가)는 무엇인가?
「(가)는 인터넷을 기반으로 모든 사물을 연결해 사람과 사물, 사물과 사물 간의 정보를 상호 소통하는 지능형 기술 및 서비스이며, 사물에서 생성되는 Data를 활용한 분석을 통해 마케팅 등에 활용할 수 있다. 」
- 사물 인터넷(IoT)
* 아래에서 설명하는 (ㄱ)은 무엇인가?
「(ㄱ)(이)란 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점으로 두는 데이터마이닝과 달리(ㄱ)는 분석 뿐만 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다.」
- 데이터 사이언스
* 아래의 (ㄱ)에 들어갈 용어로 적절한 것은?
「분석적 기업으로 도약을 위해서는 가장 먼저 조직의 분석(Analytics) 도입 여부 및 활 수준에 대한 명확한 집단이 요구된다. 특히 분석 수준 진단 방법 중 조직의 분석 및 활용을 위한 역량수준을 파악하기 위해 ‘도입->(ㄱ)->확산->최적화’의 분석 성숙도(Maturity) 단계 포지셔닝을 파악한다.」
- 활용
* 데이터 분석 수준진단
분석 준비도 : 분석 업무, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라
분석 성숙도 : 도입 > 활용 > 확산 > 최적화
* 아래 ( )안에 들어갈 용어로 적절한 것은?
「현재의 비즈니스 모델 및 유사/동종사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 전에 ( )로 표기하는 것이 필요하다. 풀어야 할 문제에 대한 상세설명 및 해당 문제 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 ( )를 활용하도록 한다.」
- 분석 유즈 케이스
* 군집분석의 품질을 정량적으로 평가하는 대표적인 지표로 군집 내의 데이터 응집도(cohesion)와 군집 간 분리도(separation)를 계산하여 군집 내의 데이터의 거리가 짧을수록, 군집 간 거리가 멀수록 값이 커지며 완벽한 분리일 경우 1의 값을 가지는 지표는?
- 실루엣 계수
* 시계열 분석을 위해서는 정상성을 만족해야 한다. 따라서 주어진 자료가 정상성을 만족하는지 판단하는 과정이 필요하다. 자료가 추세를 보이는 경우에는 현 시점의 자료값에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어 준다. 이 방법은 무엇인가?
- 차분 (현시점 자료에서 이전 시점 자료를 빼는 것)
* 동전을 연속으로 3번 던져서 앞면이 한번 나올 확률은 얼마인가?
- 3/8
* 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법을 무엇이라 하는가?
- 배깅 (주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법)
* 의사결정나무 모형에서 가지를 끝까지 모두 사용해 순도 100% 상태로 만들면 실제 데이터에 적용할 수 없게 되는 문제점이 발생한다. 분기가 너무 많아 (A)가 발생한다. (A)는 무엇인가?
- 과대적합 (모델이 훈련 세트의 각 샘플에 너무 가깝게 맞춰져서 새로운 데이터에 일반화되기 어려울 때 발생하는 문제)
* 신경망의 모형에는 Visible Layer와 Hidden Layer로 구성되어 Hidden Layer가 많은 다층 퍼셉트론에서 Hidden Layer를 많이 거칠수록 전달되는 오차가 크게 줄어들어 학습이 되지 않는 현상이 발생하는데, 이를 무엇이라고 하는가?
- 기울기 소실(Gradient Vanishing) <-> 기울기 폭주(Gradient Exploding)
(깊은 인공신경망을 학습하다보면 역전파 과정에서 입력층으로 갈수록 기울기가 점차적으로 작아지는 현상)
기출문제 22회
* 아래는 기업 내부에서 사용하는 데이터베이스의 활용에 대한 설명이다. (가)에 들어갈 알맞은 용어는?
「(가)(은)는 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재구매, 생산, 재고, 유통, 판매, 고객 데이터로 구성된다.」
- SCM(Supply Chain Management)
* 아래에서 설명하고 있는 빅데이터 활용 기본 기법은?
「- 생명의 진화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)가 1975에 개발하였다.
- ‘최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?’와 같은 문제를 해결할 때 사용된다.
- 어떤 미지의 함수 Y=f(x)를 최적화하는 해 x를 찾기 위해, 진화를 모방한(Simulated evolution) 탐색 알고리즘이라고 말할 수 있다.」
- 유전자 알고리즘
* 빅데이터 활용 기본 테크닉
연관규칙학습 : 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
유형분석 : 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화(evolve)시켜 나가는 방법
기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
회귀분석 : 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용
감정분석 : 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
소셜네트워크분석(=사회관계망분석) : 특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
* 빅데이터 분석 과제를 수행할 때 아래와 같은 역할을 수행하는 전문가를 일컫는 말은?
「회사 내 기능조직, 비즈니스 분석 또는 BI조직에 소속되어 있으면서 빅데이터 분석 전문 조직과 협력을 통하여 업무에 필요한 분석 모델이나 예측 모델을 Self Service Analytics 도구를 활용하여 구현하는 전문가」
- 빅데이터 기획 전문가
* 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향제시에 활용할 줄 아는 기획자
* 알고리즈미스트: 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력
* 아래 (가) 안에 공통적으로 들어갈 용어는?
「기업 및 공공기간에서는 시스템의 중장기 로드맵을 정의하기 위한 (가)(을)를 수행한다. (가)(은)는 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내, 외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다. 」
- ISP(Information Strategy Planning)
* 실험 결과가 단지 성공과 실패만 있다고 가정하자. 성공일 경우 확률변수는 1의 값을 가지며, 실패일 경우 확률변수는 0의 값을 가진다. 이때 성공일 확률은 0.3이다. 이 경우 기댓값은 얼마인가?
- 0.3
* 원 데이터 집합으로부터 크기가 같은 표본을 여러 단순 임의 복원 추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블 하는 방법은 무엇인가?
- 배깅
* 모형 평가 방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은 무엇인가?
- 홀드아웃방법
* 이상값(outlier) 탐색 기법 중 하나로 평균으로부터 k*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하는 방법은 무엇인가?
- ESD(Extreme Studentized Deviation)
* 이산형 확률분포 중 주어진 시간 또는 영역에서 어떤 사건의 발생 횟수를 나타내는 확률 분포는 무엇인가?
- 포아송 분포
* 분류분석의 모형을 평가하는 방법으로 랜덤 모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지를 각 등급별로 파악하는 그래프는 무엇인가?
- 향상도곡선(life curve)
기출문제 21회
* 아래에서 (ㄱ) 안에 공통적으로 들어갈 말로 적절한 것은?
「(ㄱ) (이)란 데이터로부터 의미있는 정보를 추출해 내는 학문으로, 통계학과는 달리 정형 또는 비정형을 막론하고 다양한 유형의 데이터를 분석 대상으로 한다. 또한 분석에 초점을 두는 데이터마이닝과는 달리 (ㄱ) (은)는 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다.」
- 데이터사이언스
* 아래는 빅데이터 활용 기본 테크닉 중 어떤 분석에 관한 설명인가?
「은행에서 대출 심사를 할 때, 소득, 카드 사용액, 나이 등 해 당 고객의 개인적인 정보를 바탕으로 그 고객이 대출 상환을 잘 하는 집단에 속할지 그렇지 않은 집단에 속할지를 예측할 수 있다.」
- 분류분석, 유형분석
* 아래 ( )안에 각각 들어갈 용어로 적절한 것은?
「분석 과제 관리 프로세스는 크게 과제 발굴과 (ㄱ)(으)으로 나누어진다. 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석과제가 확정되면 (ㄴ), (ㄷ), 분석과제 결과 공유/개선의 분석과제 관리 프로세스를 수행하게 된다.」
ㄱ : 과제 수행, ㄴ, ㄷ : 팀구성, 분석 과제 실행, 분석 과제 진행 관리
* 분석 과제 관리 프로세스
과제 발굴 : 분석 아이디어 발굴 >.분석 과제 후보 제안 > 분석 과제 확정
과제 수행 : 팀구성 > 분석 과제 실행 > 분석 과제 진행 관리 > 결과 공유/개선
* 상향식 접근 방식의 발산단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴단계를 반복하여 과제를 발굴하는 방법을 무엇이라고 하는가?
- 디자인 사고(Design Thinking)
* 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들도 배치시키는 방법을 무엇이라고 하는가?
- 다차원 척도법(MDS)
* 다차원 척도법(MDS : Multi Dimensional Scaling)은 군집분석과 같이 개체들을 대상으로 변수들을 측정한 후, 개체들 사이의 유사성/비유사성을 측정하여 개체들을 2차원 또는 3차원 공간상에 점으로 표현하는 분석 방법입니다.
* 군집분석은 개체들 간의 비유사성을 이용하여 동일한 그룹들로 분류하는 것이 목적인 반면, 다차원척도법은 개체들의 비유사성을 이용하여 2차원 공간상에 점으로 표시하고 개체들 사이의 집단화를 시각적으로 표현하는 것을 목적으로 합니다.
* 계층적군집을 수행할 때 두 군집간의 거리를 측정하는 방법 중 아래에서 설명하는 방법은?
「군집내의 오차제곱합(error sum of square)에 기초하여 군집을 수행한다.」
- 와드연결법
* 군진간 거리 척도/연결법
합병형 : 최단(단일) 연결법, 최장(완전) 연결법, 평균연결법, 와드연결법, 중심연결법
분리형 : 다이아나 방법
* 회귀 모형의 가정 중 잔차항이 정규분포를 이루어야 하는 가정을 의미하는 용어는 무엇인가?
- 정상성(정규성)
* 선형회귀분석의 가정
선형성 : 입력변수와 출력변수의 관계가 선형이다.
등분산성 : 오차의 분산이 입력변수와 무관하게 일정하다.
독립성 : 입력변수와 오차는 관련이 없다.
비상관성 : 오차들끼리 상관이 없다.
정상성(정규성) : 오차의 분포가 정규분포를 따른다.
* 의사결정 나무에서 더 이상 분기가 되지 않고 현재의 마디가 끝마디(leaf node, termial node)가 되도록 하는 규칙을 나타내는 용어는 무엇인가?
- 정지규칙(stopping rule) / (의사결정나무에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙이다.)
* 연관규칙의 측정 지표 중 도출된 규칙의 우수성을 평가하는 기준으로 두 품목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표는 무엇인가?
- 향상도 (A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가비이다. 이를 통해 도출된 규칙의 예측력을 평가하다.)
모의고사 2회
* 인터넷상의 서버에서 데이터 저장, 처리, 네트워크, 콘텐츠 사용 등 서로 다른 물리적인 위치에 존재하는 컴퓨팅 자원을 가상화 기술을 통해 IT 관련 서비스를 한 번에 제공하는 혁신적인 컴퓨팅 기술을 무엇인가?
- 클라우딩 컴퓨팅
* 데이터 사이언스란 데이터로부터 의미 있는 정보를 추출하는 학문이다. 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 ( )을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 한다.
- 비정형
* 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것은 무엇인가?
- 분석 유즈 케이스
* 아래의 R명령의 결과를 쓰시오.
「0/0」
- NaN(Not a Number)
* 100명의 키를 cm으로 측정한 데이터의 분산이 225였다. 동일한 100명의 키를 m로 측정한다면 데이터 분산은 얼마인가?
- 0.0225
* 고객은 늘 구매하지 않는다. 경쟁사의 고객 빼앗기에 따른 고객의 변심 또는 고객의 니즈나 취향이 변해 더 이상 상품과 서비스를 사용하지 않고 경쟁사와 거래하는 고객을 무엇이라고 하는가?
- 이탈 고객
* 의사결정나무 중 연속형 타깃변수(또는 목표변수)를 예측하는 의사결정나무를 무엇이라고 하는가?
- CART
* 의사결정나무 알고리즘
CART(Classification and Regression Tree)
- 분순도의 측도로 츨력(목적) 변수가 범주형일 경우 지니지수를 이용, 연속형인 경우 분산을 이용한 이진분리(binary split)를 사용한다.
- 개별 입력변수 분만 아니라 입력변수들의 선형결합들 중에서 최적의 분리를 찾을 수 있다.
C4.5와 C5.0
- CART와는 다르게 각 마디에서 다지분리(multiple split)가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
- 불순도의 측도로는 엔트로피지수를 활용한다.
CHAID
- 가치지기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력변수가 반드시 범주형 변수이어야 한다.
- 불순도의 측도로는 카이제곱 통계량을 사용한다.
* 데이터마이닝 모델링 분석 기법 중 random input에 따른 forest of tree를 이용한 분류방법으로 랜덤한 forest에는 많은 트리들이 생성된다. 새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각의 트리들이 voting함으로써 분류하는 방식의 R 패키지는 무엇인가?
- 랜덤 포레스트(Random Forest)
* 다수 모델의 예측을 관리하고 조합하는 기술을 메타 학습(meta learning)이라 한다. 여러 분류기(classifier)들의 예측을 조합함으로써 분류 정확성을 향상시키는 기법은?
- 앙상블
모의고사 1회
* 개인의 사생활 침해를 방지하고 통계 응답자의 비밀사항은 보호하면서 통계자료의 유용성을 최대한 확보 할 수 있는 데이터변환 방법은 무엇인가?
- 마스킹(masking)
* 비식별 기술의 종류
데이터 마스킹 : 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술
가명처리 : 개인정보 주체의 이름을 다른 이름으로 변경하는 기술, 다른 값으로 대체할 시 일정한 규칙이 노출되지 않도록 주의해야 함
총계처리 : 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 함. 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지의 결과임으로 주의해 함
데이터값 삭제 : 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제, 개인과 관련된 날짜 정보(자격취득일자, 합격일 등)은 연단위로 처리
데이터 범주화 : 데이터의 값을 범주의 값으로 변환하여 값을 숨김
* 아래의(ㄱ)에 적잘한 데이터베이스 용어는?
「데이터(ㄱ)이란 데이터베이스 내의 데이터에 대한 정확성 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 혹은 수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다.」
- 무결성(integrity)
* 무결성과 레이크
데이터 무결성(Data Integrity) : 데이터베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경/수정 시 여러 가지 제한을 두어 데이터의 정확성을 보증하는 것을 말한다. 무결성제한의 유형은 개체 무결성(Entity Integrity), 참조 무결성(Referential Integrity), 범위 무결성(Domain Integrity)이 있다.
데이터 레이크(Data Lake) : 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관없이 데이터를 저장하는 시스템으로, 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소를 의미한다. Apache Hadoop, Teradata Integrated Big Data Platform 1700 등과 같은 플랫폼으로 구성된 솔루션을 제공하고 있다.
* 데이터 분석 기획을 위해서 데이터 분석 수준진단이 필요하다. 분석 준비도와 분석 성숙도를 통해 데이터 분석 수준을 진단하게 되는데, 분석준비도 6개의 영역 중 2가지를 적으시오.
분석 업무, 분석 인력/조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라
* 아래 (ㄱ), (ㄴ), (ㄷ) 안에 들어갈 용어를 순서대로 기입하시오.
「 비즈니스 모델 캔버스는 9가지 블록을 단순화하여 (ㄱ), (ㄴ), 고객단위로 문제를 발굴하고 이를 관리하는 규제와 감사, (ㄷ) 영역으로 나눠 분석 기회를 도출한다.」
- 업무, 제품, 지원 인프라
* 이것은 데이터 안의 두 변수 간의 관계를 알아보기 위해 사용하는 값이다. 두 변수간의 공분산으로는 음과 양의 관계를 파악할 수 있으나 관계 정도를 확인하기는 힘들다. 그래서 각 변수의 표준편차를 곱하여 공분산을 나누어 -1에서 1사이 값으로 표준화하여 두 변수 간의 관계 정도를 확인 할 수 있도록 수치화 한 이것을 활용한다. 이것은 무엇인가?
- 상관계수(correlation)
* 아래 R코드의 출력 결과는?
「> f <- funtion(x, a) return((x-a)^2)
> f(1:2,3)」
- 4 1
* 우리는 모집단을 조사하기 위해 추출한 모집단의 일부 원소를 이용한다. 통계자료의 획득 방법 중 모집단을 조사하기 위해 추출한 집단을 무엇이라 하는가?
- 표본(sample)
* 표본조사
- 대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다.
- 모집단(population) : 조사하고자 하는 대상 집단 전체
- 원소(element) : 모집단을 구성하는 개체
- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소
- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 저옵
- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다.
* 다른 중 아래 거래 전표에서 연관 규칙 “C->A”의 신뢰도를 구하시오. - 50%
물품
거래건수
{A}
100
{C}
50
{A, C}
200
{B, C}
250
{B, D}
200
{A, B, D}
200
{A, B, C, D}
100
* 연관규칙의 측도
1) 지지도(support) : 전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의한다.
지지도 = P(A ∩ B) = A와 B가 동시에 포함된 거래수 / 전체 거래수 = A ∩ B / 전체
2) 신뢰도(confidence) : 항목 A를 포함한 거래 중에서 항목 A와 항목 B가 같이 포함될 확률이다. 연관성의 정도를 파악할 수 있다.
신뢰도 = P(A ∩ B) / P(A) = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 = 지지도 / P(A)
3) 향상도(Lift) : A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가 비이다. 연관규칙 A->B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 항상 1이다.
향상도 = P(B | A) / P(B) = P(A ∩ B) / P(A)P(B) = A와 B가 동시에 포함된 거래수 / A를 포함하는 거래수 * B를 포함하는 거래수 = 신뢰도 / P(B)
* 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성 측정에 시간이라는 개념을 포함시켜 순차적인 구매 가능성이 큰 상품군을 찾아내는 데이터 마이닝 기법은?
- 순차분석
* 순차패턴(Sequence Analysis)
- 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것이다.
- 연관성분석에서의 데이터 형태에서 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함된다.
* 유클리스 거리를 구하는 공식
* 지지도, 신뢰도, 향상도 구하는 공식
* 사분위수를 이용하여 하한성과 상한선을 구하는 공식
* 지니지수를 구하는 공식
* 피어슨 상관계수를 구하는 공식
* 맨하튼 거리를 구하는 공식
출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)
반응형'ADsP' 카테고리의 다른 글
[ADsP] 모의고사 해설 (0) 2021.03.01 [ADsP] 3과목 데이터 분석 - 기출문제 해설(5.정형 데이터 마이닝) (0) 2021.02.27 [ADsP] 3과목 데이터 분석 - 기출문제 해설(4.통계분석) (0) 2021.02.27 [ADsP] 3과목 데이터 분석 - 기출문제 해설(1.데이터 분석 개요, 2.R프로그래밍 기초, 3.데이터 마트) (0) 2021.02.27 [ADsP] 2과목 데이터 분석 기획 - 기출문제 해설 (0) 2021.02.27