ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP] 1과목 데이터 이해 - 기출문제 해설
    ADsP 2021. 2. 27. 20:59
    반응형

    기출문제 해설

    * 정량적 데이터는 형태 수치, 도형, 기호 등올 기술이 되며, 정성적 데이터의 형태는 언어, 문자 등으로 기술된다.

     

    * 암묵지와 상호작용은 공통화, 내면화이고 형식지와 상호작용은 표출화, 연결화이다.

     

    * 개인정보 비식별화 기법에 대한 설명

    1. 총계처리 - 데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함

    2. 데이터 마스킹 - 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술

    3. 가명처리 - 개인 식별에 중요한 데이터를 식별 할 수 없는 다른 값으로 변경

    4. 범주화 - 데이터의 값을 범주의 값으로 변환하여 값을 감춤

     

    * 데이터에 대한 설명

    1. 양질의 데이터를 확보하지 못하면 잘못된 분석 결과를 얻음

    2. 창의적인 데이터 매시업(Mashup)은 기존에 풀기 어려웠던 문제 해결에 도움

    3. 데이터 내부에 메타 데이터를 갖고 있으며 일반적으로 파일형태로 저장하는 것은 반정형 데이터이다.

    4. 공공부문에서 개방하고 있는 대표적인 데이터는 교통 데이터, 물가 데이터, 의료 데이터이다.

     

    * 표출화는 형식지 요소 중 하나로 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정

     

    * 데이터를 가공, 처리하여 얻을 수 있는 것은 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)이다. 또한 이들은 계층적 구조로서 DIKW 피라미드를 형성한다.

     

    * 지식은 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물이다.

     

    * 빅데이터 활용사례

    1. 구글 - 실시간 자동 번역시스템을 통한 의사소통의 불편해소

    2. 넥플릭스 - 이용자의 콘텐츠 기호를 파악하여 새로운 영화를 추천해주는 Cinematch 시스템 운영

    3. 월마트 - 소셜 미디어를 통해 고객 소비 패턴을 분석하는 월마트랩(Wallmart Labs) 운영

    4. 자라 - 일일 판매량을 실시간 데이터 분석으로 상품 수요를 예측

     

    * 메타데이터는 데이터에 대한 데이터로써 하위레벨의 데이터를 설명/기술하려는 것이며, 인덱스는 데이터베이스의 테이블에서 고속의 검색동작뿐만 아니라 레코드 접근과 관련 효율적인 순서 매김 동작에 대한 기초를 제공한다.

     

    * 데이터 웨어하우스에 대한 설명

    1. 데이터 웨어하우스는 사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합된 데이터 저장 공간을 말한다.

    2. 데이터 웨어하우스의 시계열성의 특성으로 데이터 웨어하우스에서 관리하는 데이터들은 수시적인 갱신이나 변경이 발생할 수 없다.

    3. ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터 웨어하우스에 정보를 적재한다.

    4. 데이터 웨어하우스는 재무, 생산, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축된다.

     

    * 데이터 분석 기술에 대한 설명

    1. OLAP - 다차원의 데이터를 대화식으로 분석하기 위한 기술

    2. Business Intelligence - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구

    3. Business Analytics - 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법

    4. Data Mining - 대용량 데이터에서 의미 있는 정보를 추출하여 의사결정에 활용하는 기술

    X. Deep Learning - 다층구조 형태의 신경망을 바탕으로 하는 머신 러닝의 한 분야

     

    * 산업별 분석 애플리케이션에서 분석 사례 중 에너지는 트레이딩, 공습/수요 예측 등이 있다.

     

    * CRM은 데이터베이스를 기초로 고객을 세부적으로 분류하여 효과적이고 효율적인 마케팅 전략을 개발한다. (단순한 정보의 수집에서 탈피, 분석 중심의 시스템 구축 지향)

     

    * ERP(Enterprise Resource Planning)는 인사〮재무〮생산 등 기업의 전 부문을 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미한다.

    * 사회기반 구조로서의 데이터베이스에 대한 설명

    1. 물류, 무역, 조세 등 사회간전자본 차원에서 정보망을 통해 유통, 이용된 정보가 데이터베이스로 구축

    2. 지리, 교통 부문에서 데이터베이스가 보다 고도화되어 데이터베이스를 구축

    3. 인터넷 보편화로 데이터베이스가 사회 전반의 인프라로 자리매김

    4. 물류, 지리/교통, 의료, 교육 등 부문에서 구축되었으며 활요이 되고 있다.

     

    * 빅데이터에 대한 정의를 설명

    1. 대규모 데이터에서 저비용으로 가치를 추출, 초고속으로 수집 및 분석하기 위한 아키텍처이다.

    2. 다양한 종류의 데이터가 있으며 구조가 단순한 것부터 복잡한 것까지 다양하다.

    3. 일반적인 데이터베이스 소프트웨어로 저장, 분석할 수 있는 범위를 초과하는 규모를 빅데이터라 정의한다.

    4. 데이터의 양, 수집, 처리 속도가 급격히 증가하면서 나타난 현상이다.

     

    * 빅데이터 활용의 기본 3요소는 데이터, 기술, 인력이다.

     

    * 빅데이터 출현 배경에 관한 설명

    1. 개별 기업의 데이터 축적 및 데이터 활용에 대한 니즈 증가

    2. 데이터 저장 기술의 발전과 저장 비용 감소

    3. 인터넷, SNS와 사물네트워크의 확산으로 데이터 생산량 증가

    4. 사진, 영상, 음성 등과 같이 특정한 처리 프로세스를 거쳐 분석데이터로 변경 후 분석해야하는 비정형 데이터의 등장

     

    * 빅데이터의 수집, 구축, 분석의 최종 목적은 기본 방식으로는 얻을 수 없었던 통찰 및 가치 창출, 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도이다.

     

    * 플랫폼이란 비즈니스 측면에서는 일반적으로 ‘공동 활용의 목적으로 구축된 유무형의 구조물’을 의미하며 빅데이터가 최근에는 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다.

     

    * 빅데이터가 만들어내는 본질적인 변화는 사전처리에서 사후처리, 표본조사에서 전수조사, 질보다 양, 인과관계에서 상관관계로 변화했다.

     

    * 플랫폼형 비즈니스 모델은 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 모델이다.

     

    * 데이터의 가치를 측정하기 어려운 이유

    1. 데이터 재사용의 일반화로 특정 데이터를 언제 누가 사용했는지 알기 힘들기 때문이다.

    2. 분석기술의 발전으로 과거에 분석이 불가능했던 데이터를 분석할 수 있게 되었기 때문이다.

    3. 빅데이터는 기존에 존재하지 않던 새로운 가치를 창출하기 때문이다.

     

    * 데이터 난수화를 사용하면 고객의 과거 구매기록이나 나이, 수입, 건강정보와 같은 데이터가 해독이 불가능한 난수화를 통해 변경된 채로 기업에 전송된다.

     

    * 감성 분석(Sentimental Analysis)에 대한 설명

    1. 특정 주제에 대한 사용자의 긍정〮부정 의견을 분석한다.

    2. 주로 온라인 쇼핑몰에서 사용자의 상품평에 대한 분석이 대표적 사례이다.

    3. 사용자가 사용한 문장이나 단어가 분석 대상이 된다.

     

    * 소셜 네트워크 분석(Social Network Analysis)에 대한 설명

    1. 사용자간의 소셜 관계를 알아내고자 할 때 이용한다.

     

    * 유형분석은 문서를 분류하거나 조작을 그룹으로 나눌 때 또는 온라인 수강생들을 특성에 따라 분류할 때 사용하는 기법으로 사용자가 어떤 특성을 가진 집단에 속하는지 알아볼 때 사용한다.

     

    * 연관성분석은 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석으로 흔히 장바구니 분석 등이 있다.

     

    * 신용평가(Credit Rating)은 투자자 보호를 위하여 금융상품 및 신용공여 등에 대하여 그 원리금이 상환될 가능성과 기업〮법인 및 간접투자기구 등의 신용도를 평가하는 행위이며 핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있다.

     

    * 딥러닝(Deep Learning)과 관련된 분석 기법

    1. LSTM(Long Short-Term Memory)

    2. Autoencoder

    3. RNN(Recurrent Neural Network)

     

    * 딥러닝(Deep Learning)과 관련된 소프트웨어

    1. Caffe

    2. Tensoftlow

    3. Theano

     

    * 빅데이터 시대에 발생할 수 있는 위기 요인은 사생활 침해, 책인 원칙 훼손, 데이터 오용이 있다.

     

    * 빅데이터의 통제 방안은 동의에서 책임으로, 결과 기반 책임 원칙을 고수, 알고리즘의 접근을 허용이다.

     

    * 데이터화(datafication) 현상에 큰 영향을 미치는 기술

    - 사물인터넷(Internet of Things)는 인터넷을 기반으로 모든 사물을 연결해 사람과 사물, 사물과 사물 간의 정보를 상호 소통하는 지능형 기술 및 서비스이며, 사물에서 생성되는 Data를 활용한 분석을 통해 마케팅 등에 활용할 수 있다.

     

    * 객체지향DB는 일반적으로 사용되는 테이블 기반의 관계형DB와 다르게 정보를 ‘객체’ 형태로 표현하는 데이터베이스 모델로 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS이다.

     

    * 컨버전스에서 디버전스로의 변화, 생산에서 서비스로의 변화, 생산에서 시장창조로의 변화가 인문학 열풍을 가져오게 한 외부환경 요소이다.

     

    * 데이터 사이언티스트의 필요 역량은 하드 스킬과 소프트 스킬이 있으며, 소프트 스킬 중 통찰력 있는 분석, 설득력있는 전달, 다분야 간 협력이 있다.

     

    * 데이터 사이언스에 대한 설명

    1. 데이터 사이언스는 데이터로부터 의미있는 정보를 추출하는 학문이다.

    2. 통찰력 있는 분석에 초점을 두고 진행한다.

    3. 정형데이터 뿐만 아니라 다양한 데이터를 대상으로 한다.

    4. 기존의 통계학과는 달리 총제적 접근법을 사용한다.

     

    * 데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련에 관련된 능력인 Hard Skill 과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 Soft Skill 로 나누어진다.

     

    * 정보는 데이터의 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 그 의미를 부여한 것이며, 지식을 도출하기 위한 재료가 된다.

     

    * 기업의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합을 데이터 웨어하우스(Data Warehouse)라고 한다.

     

    * 지난 몇 년간 여러 사이로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트인 데이터 레이크(Data Lake)를 기업들이 구현하는 것은 2017년 새롭게 등장한 트랜드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

     

    * 정량적 데이터는 지역별 매출액, 영업이익률, 판매량과 같이 수치로 명확하게 표현되는 데이터로, 그 양이 크게 증가하더라도 이를 DBMS 에 저장, 검색, 분석하여 활용하기가 용이하다.

     

    * SCM(Supply Chain Management)은 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로, 자재 구매, 생산, 제고, 유통, 판매, 고객 데이터로 구성된다.

     

    * 페이스북은 2006년 F8 행사를 기점으로 자신들의 소셜 그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작하면서 플랫폼(Platform) 역할을 하기 시작했다.

     

    * 하둡은 대규모 분산 병렬 처리의 업계 표준으로 맵리듀스 시스템과 분산 파일 시스템인 HDFS로 구성된 플랫폼(Platform) 기술이며, 선형적인 성능과 용량 확장성, 고장 감내성을 가지고 있다.

     

    * 아마존(Amazon)은 S3와 BC2 환경을 제공함으로써 플랫폼(Platform)을 위한 클라우드 서비스를 최초로 실현하였다.

     

    * 유전자 알고리즘(Genetic Algorithms)

    1. 생명의 잔화를 모방하여 최적해(Optimal Solution)를 구하는 알고리즘으로 존 홀랜드(John Holland)가 1975년에 개발하였다.

    2. ‘최대의 시청률을 얻으려면 어떤 시간대에 방송해야 하는가?’와 같은 문제를 해결할 때 사용된다.

    3. 어떤 미지의 함수 Y=f(x)를 최적화하는 해 x를 찾기 위해, 진화를 모방한(Simulated evolution) 탐색 알고리즘이라고 말할 수 있다.

     

    출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)

    반응형

    댓글

Designed by Tistory.