ADsP
-
[ADsP] 주관식 정리ADsP 2021. 3. 7. 23:52
기출문제 27회* 아래는 빅데이터가 만들어 내는 본질적인 변화이다. (A)와 (B)에 들어갈 말을 쓰시오.「(A)은(는) 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고, (B)은(는) 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다. 」(A) : 인과관계, (B) : 상관관계 * 빅데이터가 만들어 내는 본질적인 변화사전처리 -> 사후처리 : 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 표본조사 -> 전수조사 : 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발견 방..
-
[ADsP] 모의고사 해설ADsP 2021. 3. 1. 22:43
모의고사(ADsP) 1회* 데이터베이스의 특징- 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어 있다.- 데이터베이스는 통합된 데이터(intefrated data)다.- 데이터베이스는 변화하는 데이터로 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 한다.- 데이터베이스의 일반적인 특징 4가지는 통합된 데이터, 저장된 데이터, 공용 데이터, 운영 데이터이다. * 데이터 사이언티스트에게 요구되는 소프트 역량은 창의적 사고, 호기심, 스토리텔링, 커뮤니케이션 등이 있다. * 클라우드 컴퓨팅의 보편화는 빅데이터의 처리 비용을 획기적으로 낮춰 경제성을 제공했다. * 빅데이터 관점에서 사물인터넷은 사물에서 나오는 데이터를 활용해 더욱..
-
[ADsP] 3과목 데이터 분석 - 기출문제 해설(5.정형 데이터 마이닝)ADsP 2021. 2. 27. 21:04
기출문제 해설(5.정형 데이터 마이닝)* 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. * 반응 변수가 범주형인 경우 예측모형의 주목적은 분류이다. * 군집분석은 각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법이다. * 한 보험회사에서 자사 고객의 보험갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보를 사용하여 예측할 때 가장 적절한 분석 기법은?- 랜덤포레스트 분석 기법은 데이터마이닝 방법론의 앙상블 기법 중 하나로 분류분석 문제를 해결하기 위한 의사결정나무와 같은 방법론이지만 의사결정나무에서 나타나는 과대적합/과..
-
[ADsP] 3과목 데이터 분석 - 기출문제 해설(4.통계분석)ADsP 2021. 2. 27. 21:03
기출문제 해설(4.통계분석)* 표본추출방법은 단순랜덤추출법, 계통추출법, 질락추출법, 층화추출법이다. * 확률 및 확률분포에 대한 설명- 모든 사건의 확률값은 0과 1사이에 있다.- 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합이다.- 두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정하에서의 B의 조건부확률과 동일하다. * 연속형 확률변수는 가능한 값이 실수의 특정구간 전체에 해당하는 확률변수이며 연속형 확률밀도함수를 가진다. * 통계적 추론에 대한 설명- 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 추론하는 것을 추정이라고 한다.- 점 추정은 표본의 정보로부터 모집단의 모수를 하나의 값을 추정하는 것이다.- 통..
-
[ADsP] 3과목 데이터 분석 - 기출문제 해설(1.데이터 분석 개요, 2.R프로그래밍 기초, 3.데이터 마트)ADsP 2021. 2. 27. 21:02
기출문제 해설(1.데이터 분석 개요, 2.R프로그래밍 기초, 3.데이터 마트)* 탐색적 자료 분석(EDA)- 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식- 다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해나가는 과정 * 데이터마이닝- 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다.- 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정을 해야 한다.- 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황에 맞게 실..
-
[ADsP] 2과목 데이터 분석 기획 - 기출문제 해설ADsP 2021. 2. 27. 21:00
기출문제 해설* 통찰(Insight)은 데이터 분석 방법(How)은 충분히 이해하고 있으나, 분석 대상(What)이 무엇인지 인지하지 못하는 유형이다. * 분석 대상이 명확하게 무엇인지 모르는 경우에는 기존분석 방식을 활용하여 통찰을 도출 해냄으로써 문제의 도출 및 해결에 기여하거나 발견 접근법으로 분석 대상 자체를 새롭게 도출할 수 있다. * 분식 기획 고려사항 중 장애요소에 대한 설명1. 비용대비 효과의 적정한 비용2. 분석 모형의 안정적 성능 확보3. 조직 역량으로 내재화를 위한 변화 관리 * 성공적인 분석을 위해서 고려해야 할 요소1. 관련 데이터의 파악 - 분석의 기본이 되는 데이터에 대한 고려가 필요2. 비즈니스 케이스 확보 - 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능..
-
[ADsP] 1과목 데이터 이해 - 기출문제 해설ADsP 2021. 2. 27. 20:59
기출문제 해설* 정량적 데이터는 형태 수치, 도형, 기호 등올 기술이 되며, 정성적 데이터의 형태는 언어, 문자 등으로 기술된다. * 암묵지와 상호작용은 공통화, 내면화이고 형식지와 상호작용은 표출화, 연결화이다. * 개인정보 비식별화 기법에 대한 설명1. 총계처리 - 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함2. 데이터 마스킹 - 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술3. 가명처리 - 개인 식별에 중요한 데이터를 식별 할 수 없는 다른 값으로 변경4. 범주화 - 데이터의 값을 범주의 값으로 변환하여 값을 감춤 * 데이터에 대한 설명1. 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음2. 창의적인 데이터 ..
-
[ADsP] 3과목 데이터 분석_요약 정리(5.정형 데이터 마이닝)ADsP 2021. 2. 27. 20:57
5. 정형 데이터 마이닝5_1. 데이터 마이닝의 개요* 데이터마이닝- 데이터마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. * 통계분석과의 차이점- 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법으로 통칭한다. * 데이터마이닝의 종류1) 정보를 찾는 방법론에 따른 종류- 인공지능(Artificial Intelligence), 의사결정나무(Decision Tree), K-평균군집합(K-means Clustering), 연관분석(Association Rule), 회귀분석(Regression), 로짓분석(Logit Analysis), 최근접이웃(Nearest..
-
[ADsP] 3과목 데이터 분석_요약 정리(4.통계분석)ADsP 2021. 2. 27. 20:56
4. 통계분석4_1. 통계분석의 이해* 총 조사/전수 조사(census)- 대상 집단 모두를 조사하는데 많은 비용과 시간이 소요되므로 특별한 경우를 제외하고는 사용 되지 않는다. (ex. 인구주택 총 조사) * 표본조사- 대부분의 설문조사가 표본조사로 진행되며 모집단에서 샘플을 추출하여 진행하는 조사이다.- 모집단(population) : 조사하고자 하는 대상 집단 전체- 원소(element) : 모집단을 구성하는 개체- 표본(sample) : 조사하기 위해 추출한 모집단의 일부 원소- 모수(parameter) : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 한다. * 표본 추출 방법 4가지- 표본조사의 중요한 점..
-
[ADsP] 3과목 데이터 분석_요약 정리(1.데이터 분석 개요, 2.R 프로그래밍 기초, 3.데이터 마트)ADsP 2021. 2. 27. 20:53
1. 데이터 분석 개요1_1. 데이터 분석 기법의 이해* 시각화(시각화 그래프)- 시각화는 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적이다.- 대용량 데이터를 다루는 빅데이터 분석에서 시각화는 필수이다.- 탐색적 분석을 할 때 시각화는 필수이다.- SNA 분석(사회연결망 분석)을 할 때 자주 활용된다.* 공간분석(GIS)- 공간분석(Spatial Analysis)은 공간적 차원과 관련된 속성들을 시각화하는 분석이다.- 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트를 얻는다.* 탐색적 자료 분석 (EDA)- 탐색적 분석은 다양한 차원과 값을 조합해가며 특이한 점이나 의미 있는 사실을 도출하고 분석의 최종 목적을 달성해가는 과정으로 데이터의 특징과..