ADsP
-
[ADsP] 주관식 정리ADsP 2021. 3. 7. 23:52
기출문제 27회 * 아래는 빅데이터가 만들어 내는 본질적인 변화이다. (A)와 (B)에 들어갈 말을 쓰시오. 「(A)은(는) 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고, (B)은(는) 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다. 」 (A) : 인과관계, (B) : 상관관계 * 빅데이터가 만들어 내는 본질적인 변화 사전처리 -> 사후처리 : 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 표본조사 -> 전수조사 : 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식발..
-
[ADsP] 모의고사 해설ADsP 2021. 3. 1. 22:43
모의고사(ADsP) 1회 * 데이터베이스의 특징 - 데이터베이스는 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용할 수 있도록 구성되어 있다. - 데이터베이스는 통합된 데이터(intefrated data)다. - 데이터베이스는 변화하는 데이터로 데이터의 삽입, 삭제, 갱신을 한다고 하더라도 항상 현재의 정확한 데이터를 유지해야 한다. - 데이터베이스의 일반적인 특징 4가지는 통합된 데이터, 저장된 데이터, 공용 데이터, 운영 데이터이다. * 데이터 사이언티스트에게 요구되는 소프트 역량은 창의적 사고, 호기심, 스토리텔링, 커뮤니케이션 등이 있다. * 클라우드 컴퓨팅의 보편화는 빅데이터의 처리 비용을 획기적으로 낮춰 경제성을 제공했다. * 빅데이터 관점에서 사물인터넷은 사물에서 나오는 데이터를 활..
-
[ADsP] 3과목 데이터 분석 - 기출문제 해설(5.정형 데이터 마이닝)ADsP 2021. 2. 27. 21:04
기출문제 해설(5.정형 데이터 마이닝) * 데이터 마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. * 반응 변수가 범주형인 경우 예측모형의 주목적은 분류이다. * 군집분석은 각 객체의 유사성을 측정하여 유사성이 높은 대상 집단을 분류하고, 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법이다. * 한 보험회사에서 자사 고객의 보험갱신 여부를 고객의 인구통계학적 특성, 보험가입 채널, 상품 종류 등의 정보를 사용하여 예측할 때 가장 적절한 분석 기법은? - 랜덤포레스트 분석 기법은 데이터마이닝 방법론의 앙상블 기법 중 하나로 분류분석 문제를 해결하기 위한 의사결정나무와 같은 방법론이지만 의사결정나무에서 나타나는 과대적합/..
-
[ADsP] 3과목 데이터 분석 - 기출문제 해설(4.통계분석)ADsP 2021. 2. 27. 21:03
기출문제 해설(4.통계분석) * 표본추출방법은 단순랜덤추출법, 계통추출법, 질락추출법, 층화추출법이다. * 확률 및 확률분포에 대한 설명 - 모든 사건의 확률값은 0과 1사이에 있다. - 서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합이다. - 두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정하에서의 B의 조건부확률과 동일하다. * 연속형 확률변수는 가능한 값이 실수의 특정구간 전체에 해당하는 확률변수이며 연속형 확률밀도함수를 가진다. * 통계적 추론에 대한 설명 - 전수조사가 불가능하면 모집단에서 표본을 추출하고 표본을 근거로 확률론을 활용하여 모집단의 모수들에 대해 추론하는 것을 추정이라고 한다. - 점 추정은 표본의 정보로부터 모집단의 모수를 하나의 값을 추정하는 것..
-
[ADsP] 3과목 데이터 분석 - 기출문제 해설(1.데이터 분석 개요, 2.R프로그래밍 기초, 3.데이터 마트)ADsP 2021. 2. 27. 21:02
기출문제 해설(1.데이터 분석 개요, 2.R프로그래밍 기초, 3.데이터 마트) * 탐색적 자료 분석(EDA) - 데이터가 가지고 있는 특성을 파악하기 위해 해당 변수의 분포 등을 시각화하여 분석하는 분석 방식 - 다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종목적을 달성해나가는 과정 * 데이터마이닝 - 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 한다. - 반드시 다양한 옵션을 줘서 모델링을 수행하지 않고, 충분한 시간이 있으면 다양한 옵션을 줘서 시도하는 것이고 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정을 해야 한다. - 분석데이터를 학습 및 테스트 데이터로 6:4, 7:3, 8:2 비율로 상황..
-
[ADsP] 2과목 데이터 분석 기획 - 기출문제 해설ADsP 2021. 2. 27. 21:00
기출문제 해설 * 통찰(Insight)은 데이터 분석 방법(How)은 충분히 이해하고 있으나, 분석 대상(What)이 무엇인지 인지하지 못하는 유형이다. * 분석 대상이 명확하게 무엇인지 모르는 경우에는 기존분석 방식을 활용하여 통찰을 도출 해냄으로써 문제의 도출 및 해결에 기여하거나 발견 접근법으로 분석 대상 자체를 새롭게 도출할 수 있다. * 분식 기획 고려사항 중 장애요소에 대한 설명 1. 비용대비 효과의 적정한 비용 2. 분석 모형의 안정적 성능 확보 3. 조직 역량으로 내재화를 위한 변화 관리 * 성공적인 분석을 위해서 고려해야 할 요소 1. 관련 데이터의 파악 - 분석의 기본이 되는 데이터에 대한 고려가 필요 2. 비즈니스 케이스 확보 - 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과..
-
[ADsP] 1과목 데이터 이해 - 기출문제 해설ADsP 2021. 2. 27. 20:59
기출문제 해설 * 정량적 데이터는 형태 수치, 도형, 기호 등올 기술이 되며, 정성적 데이터의 형태는 언어, 문자 등으로 기술된다. * 암묵지와 상호작용은 공통화, 내면화이고 형식지와 상호작용은 표출화, 연결화이다. * 개인정보 비식별화 기법에 대한 설명 1. 총계처리 - 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함 2. 데이터 마스킹 - 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술 3. 가명처리 - 개인 식별에 중요한 데이터를 식별 할 수 없는 다른 값으로 변경 4. 범주화 - 데이터의 값을 범주의 값으로 변환하여 값을 감춤 * 데이터에 대한 설명 1. 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음 2. 창의..
-
[ADsP] 3과목 데이터 분석_요약 정리(5.정형 데이터 마이닝)ADsP 2021. 2. 27. 20:57
5. 정형 데이터 마이닝 5_1. 데이터 마이닝의 개요 * 데이터마이닝 - 데이터마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이다. * 통계분석과의 차이점 - 통계분석은 가설이나 가정에 따른 분석이나 검증을 하지만 데이터마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 찾아내는 방법으로 통칭한다. * 데이터마이닝의 종류 1) 정보를 찾는 방법론에 따른 종류 - 인공지능(Artificial Intelligence), 의사결정나무(Decision Tree), K-평균군집합(K-means Clustering), 연관분석(Association Rule), 회귀분석(Regression), 로짓분석(Logit Analysis), 최근접이웃(N..