ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [ADsP] 2과목 데이터 분석 기획 - 요약 정리
    ADsP 2021. 2. 27. 20:50
    반응형

    1. 데이터 분석 기회의 이해 

    1_1. 분석 기획 방향성 도출

    * 데이터 사이언티스트 3가지 영역
    1) 수학/통계학적 지식
    2) 정보 기술(IT기술, 해킹기술, 통신기술 등)
    3) 비즈니스

    * 분석의 대상(What)과 분석의 방법(How)에 따른 분석 유형 4가지
    1) 최적화(Optimization) What-known, How-known
    2) 통찰(Insight) What-unknown, How-known
    3) 해법(Solution) What-known, How-unknown
    4) 발견(Discovery) What-unknown, How-unknown

    * 목표 시점별 분석 기획 방안
    1) 과제 중심적인 접근 방식 : 당면한 과제를 빠르게 해결
    목표 - Speed & Test, 과제유형 - Quick-Win, 접근방식 - Problem Solving
    2) 장기적인 마스터플랜 방식 :  지속적인 분석 내재화
    목표 - Accuracy & Deploy, 과제유형 - Long Term View, 접근방식 - Problem Definition

    * 분석 기획 시 고려사항
    1) 가용 데이터(Available data)
    2) 유즈케이스(Proper Business Use Case)
    3) 장애요소(Low Barrier Of Execution)
    4) 변환 관리(Change Management)

    * 데이터 유형
    1) 정형 데이터 - ERP, CRM, SCM 등 데이터 자체로 분석이 가능하면 데이버터베이스로 관리
    2) 반정형 데이터 - 로그 데이터, 모바일 데이터, 센싱 데이터 등 데이터 자체로 분석이 가능하지만 해석이 불가능하여 메타정보를 활용해야 해석이 가능
    3) 비정형 데이터 - 영상, 음성, 문자 등 데이터 자체로 분석이 불가능하여 분석 데이터로 변경 후 분석


    1_2. 분석 방법론

    * 기업의 합리적 의사결정을 가로막는 장애요소
    1) 고정관념(Stereotype)
    2) 편향된 생각(Bias)
    3) 프레이밍 효과(Framing Effect : 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상)

    * 암묵지 : 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 (상호 작용 : 공통화, 내면화)

    * 형식지 : 문서나 매뉴얼처럼 형상화된 지식 (상호 작용 : 표출화, 연결화)

    * 방법론의 생성과정
    1) 방법론 -> 암묵지 (내재화)  
    2) 암묵지 -> 형식지 (형식화)
    3) 형식지 -> 방법론 (체계화) 

    * 방법론의 적용 업무의 특성에 따른 모델
    1) 폭포수 모델(Waterfall Model) : 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견될 시 피드백 과정이 수행된다. (기존 IT의 SW 개발 방식)
    2) 프로토타입 모델(Prototype Model) : 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식으로, 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공한다. 시험 사용 후 사용자의 요구를 분석하거나 요구 정당성을 점건, 성능을 평가하여 그 결과를 통한 개선 작업을 시행하는 모델이다.
    3) 나선형 모델(Spiral Model) : 반복을 통해 점증적으로 개발하는 방법으로, 처음 시도하는 프로젝트에 적용이 용하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

    * KDD 분석 절차
    1) 데이터셋 선택 (selection)
    - 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이며 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다.
    - 데이터마이닝에 필요한 목표 데이터(target data)를 구성하여 분석에 활용한다.
    2) 데이터 전처리 (preprocessing)
    - 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계이다.
    - 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행한다. 
    3) 데이터 변환 (transformation)
    - 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터에 변경하는 단계이다.
    - 데이터마이닝 프로세스를 진행하기 위해 학습용 데이터(training data)와 검증용 데이터(test data)로 데이터를 분리하는 단계이다.
    4) 테이터 마이닝 (data mining)
    - 학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계이다.
    - 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출한다.
    5) 결과 평가 (interpretation / evaluation)
    - 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성을 확인한다.
    - 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계이다.
    - 필요에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스를 반복 수행한다.

    * CRISP-DM의 4 레벨 구조
    - 최상위 레벨은 여러 개의 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic Tasks)를 포함한다. 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크(Specialized Tasks)로 구성된다.
    - 예를 들어 데이터 정제(Data Cleansing)라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다.
    - 마지막 레벨인 프로세스 실행(process instances)은 데이터 마이닝을 위한 구체적인 실행을 포함한다.

    * CRISP-DM의 프로세스 6단계
    1) 업무 이해 (Business Understanding)
    - 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
    - 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
    수행 업무) 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
    2) 데이터 이해 (data understanding)
    - 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
    - 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
    수행 업무) 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
    3) 데이터 준비 (data preparation)
    - 분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계(많은 시간이 소요 될 수 있음)
    수행 업무) 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
    4) 모델링 (modeling)
    - 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
    - 모델링 과정에서 데이터 셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며, 모델링 결과를 테스트용 데이터 셋으로 평가하여 모델의 과적합(Over-fitting) 문제를 확인
    수행 업무) 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
    5) 평가 (evaluation)
    - 모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용 할 것인지 판다
    수행 업무) 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
    6) 전개 (deployment)
    - 모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
    - 모니터링과 모델의 유지보수 계획 마련
    - CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리
    수행 업무) 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
     
    * 빅데이터 분석의 계층적 프로세스
    1) 단계(Phase) : 프로세스 그룹(Process Group)을 통하여 완성된 단계별 산출물이 생성된다. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전관리(Configuration Management) 등을 통하여 통제가 이루어져야 한다.
    2) 태스크(Task) : 각 단계는 여러 개의 태스크(Task)로 구성된다. 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있다.
    3) 스텝(Step) : WBS(Work Breakdown Structure)의 워크 패키지(Work Package)에 해당되고 입력 자료(Input), 처리 및 도구(Process&Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)이다.

    * 빅데이터 분석 방법론의 5단계
    1) 분석 기획(Planning) : 비즈니스 도메인과 문제점을 인식하고 분석 계 및 프로젝트 수행계획을 수립하는단계이다.   
    2) 데이터 준비(Preparing) : 비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계이다.
    3) 데이터 분석(Analyzing) : 원천 데이터를 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계이다. 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백(Feedback)하여 두 단계를 반복하여 진행한다.
    4) 시스템 구현(Developing) : 분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다.
    5) 평가 및 전개(Lesson Learned) : 데이터 분석 및 시스템 구현 단계를 수행한 후, 프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계이다.

     

    1_3. 분석 과제 발굴
    * 하향식 접근법 (Top Down Approach) 
    - 현황 분석을 통해 기회나 문제를 탐색(Problem Discovery)하고, 해당 문제를 정의(Problem Definition), 해결방안을 탐색(Solution Search)한다. 그리고 데이터 분석의 타당성 검토(Feasibility Study)를 거쳐 분석 과제를 도출하는 과정으로 구성된다.

    * 하향식 접근법의 데이터 분석 기회 단계
    1) 문제 탐색 (Problem Discovery)
    - 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요하다.
    - 전체적인 관점의 기준 모델로는 기업 내〮외부 환경을 포괄하는 비즈니스 모델과 외부 참조 모델이 존재한다.
    - 과제 발굴 단계에서는 세부적인 구현 및 솔루션에 초점을 맞추는게 아니라, 문제를 해결함으로써 발생하는가치에 중점을 두는 것이 중요하다.
    2) 문제 정의 (Problem Definition)
    - 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의 하는 단계이며, 앞서 수행한 문제 탐색의 단계가 무엇을(What) 어떤 목적으로(Why) 수행해야 하는지에 대한 관점이었다면, 본 단계에서는 이를 달성하기 위해서 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석의 문제로의 변환을 수행하게 된다.
    - 데이터 분석 문제의 정의 및 요구사항 : 분석을 수행하는 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종사용자(End User) 관점에서 이루어져야 한다.
    - 데이터 분석 문제가 잘 정의되었을 때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의할 필요가 있다.
    3) 해결방안 탐색(Solution Search)
    - 정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색된다.
    4) 타당성 검토(Feasibility Study)
    - 도출된 분석 문제나 가설에 대한 대안을 과제화하기 위해서는 경제적 타당성, 데이터 및 기술적 타당성 같은 다각적인 타당 성분석이 수행되어야 한다.

    * 비즈니스 모델 캔버스를 활용한 과제 발굴 방법 5가지 영역
    1) 업무(Operation) : 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원(Resource) 관련 주제 도출 예) 생산 공정 최적화, 재고량 최소화
    2) 제품(Product) : 생상 및 제공하는 제품〮서비스를 개선하기 위한 관련 주제 도축 예) 제품의 주요기능 개선, 서비스 모니터링 지표도출
    3) 고객(Customer) : 제품〮서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출 예) 고객 Call 대기 시간 최소화, 영업점 위치 최적화
    4) 규제와 감사(Regulation& Audit) : 제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출 예) 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등
    5) 지원 인프라(IT&Human Resource) : 분석을 수행하는 시스템 영역 및 이를 운영〮관리하는 인력의 관점에서 주제 도출 예) EDW 최적화, 적정 운영 인력 도출 등

    * 분석 기회 발굴의 범위 확장 시 4가지 관점
    1) 거시적 관점의 메가트랜트 : 조직 및 해당 산업에 폭넓게 영향을 미치는 사회〮경제적 용인을 STEEP으로 요약되는 사회(Social), 기술(Technological), 경제(Economic), 환경(Environmental), 정치(Political) 영역으로 폭넓게 나눈다.
    2) 경쟁자 확대 관점 : 현재 수행하고 있는 사업 영역의 직접 경쟁사 및 제품〮서비스뿐만 아니라 대체재와 신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 불굴의 폭을 넓혀서 탐색한다.
    3) 시장의 니즈 탐색 관점 : 현재 수행하고 있는 사업에서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널(Channel) 및 고객의 구매와 의사결정에 영향을 미치는 영향자들(Influencer)에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다.
    4) 역량의 재해석 관점 : 현재 해당 조직 및 기업이 보유한 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다.
      
    * 상향식 접근법 (Bottom Up Approach)
    - 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근 방법
    - 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

    * 상향식 접근법의 특징
    - 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking) 접근법을 통해 WHY -> WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용
    - 상향식 접근법은 비지도 학습 방법(Unsupervised Learning)으로 수행되며, 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근
    - 시행착오를 통한 문제 해결, 프로토타이핑 접근법

    * 비지도 학습(Unsupervised Learning)
    - 일반적으로 상향식 접근법의 데이터 분석은 비지도 학습 방법에 의해 수행된다.
    - 비지도 학습은 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다.
    - 비지도 학습의 데이터 마이닝 기법의 예 - 장바구니 분석, 군집 분석, 기술 통계 및 프로 파일링 등
     
    * 지도 학습(Supervised Learning)
    - 명확한 목적 하에 데이터 분석을 실시하는 것은 지도 학습이라고 하며, 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적이다.

    * 프로토타이핑 접근법 
    - 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해 보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법을 말한다.
    - 하향식 접근방식은 문제가 정형화되어 있고 문제해결을 위한 데이터가 완벽하게 조직에 존재할 경우에 효과적이고 프로토타이핑 방법론은 비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함으로써, 이를 바탕으로 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식이다.
    - 프로토타이핑 접근법의 기본적인 프로세스는 가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰도출 및 가설 확인으로 구성된다.


    1_4. 분석 프로젝트 관리 방안
    * 분석과제 관리를 위한 5가지 영역
    1) 데이터 크기(Data Size)

    - 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요하다. 하둡 환경에서의 엄청난 데이터양을 기반으로 분석하는 것과 기존 정형 데이터베이스에 있는 시간 당 생성되는 데이터를 분석할 때의 관리방식은 차이가 날 수 밖에 없다.
    2) 데이터 복잡성(Data Complexity) 

    - BI(Business Intelligence) 프로젝트처럼 정형 데이터가 분석 마트로 구성되어 있는 상태에서 분석을 하는 것과 달리 텍스트, 오디오, 비디오 등의 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석 프로젝트를 진행 할 때는, 초기 데이터의 확보와 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다.
    3) 속도(Speed) 

    - 분석결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도를 고려해야 한다. 일 단위, 주 단위 실적의 경우에는 배치(Batch)형태로 작업되어도 무방하지만 실시간으로 사기(Fraud)를 탐지하거나 고객에게 개인화된 상품〮서비스를 추천하는 경우에는 분석 모델의 적용 및 계산이 실시간으로 수행되어야하기 때문에 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야한다.
    4) 분석 복잡성(Analytic Complexity) 

    - 분석 모델의 정확도와 복잡도는 트레이드오프(Trade off)관계가 존재한다. 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 한다. 고객의 신용을 평가하는 마케팅 시나리오에서 분석모델을 활용하여 신용점수가 낮게 나올 때 어떠한 변수에 기안했는지를 모델에서 설명해 줄 수 없으면 영업〮마케팅 직원 입장에서는 해당 고객과의 소통이 어려워지는 단점이 존재하므로, 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델을 찾는 방안을 사전에 모색해야 한다.
    5) 정확도와 정밀도 (Accuracy & Precision) 

    - Accuracy는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고 Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다. 분석의 활용적인 측면에서는 Accuracy가 중요하며, 안정성 측면에서는 Precision이 중요하다. 그러나 Accuracy와 Precision은 트레이드오프가 되는 경우가 많기 때문에 모델의 해석 및 적용 시 사전에 고려해야 한다.

    2. 분석 마스터 플랜
    2_1. 마스터 플랜 수립 프레임 워크
    * ISP(Information Strategy Planning) 
    - 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내〮외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.
     
    * 분석 마스터 플랜 
    - 일반적인 ISP 방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중〮장기로 나누어 계획을 수립한다.

    * 과제 우선순위 평가기준
    1) 전략적 중요도
    전략적 필요성 : 전략적 목표 및 본원적 업무에 직접적인 연관관계가 밀접한 정도, 이슈 미해결시 발생하게 될 위험 및 손실에 대한 정도
    시급성 : 사용자 요구사항, 업무능률 향상을 위해 시급히 수행되어야 하는지에 대한 정도, 향후 경쟁우위 확보를 위한 중요성 정도
    2) 실행 용이성
    투자 용이성 : 기간 및 인력 투입 용이성 정도, 비용 및 투자예산 확보 가능성 정도
    기술 용이성 : 적용 기술의 안정성 검증 정도, 응용시스템, H/W 유지보수 용이성 정도, 개발 스킬 성숙도 및 신기술 적용성 정도

    * ROI 관점에서 빅데이터의 핵심 특징
    1) 투자비용(Investment) 요소
    크기(Volume) 
    - 데이터의 규모 및 양을 의미, 대용량 데이터를 저장〮처리하고 관리하기 위해서는 새로운 투자가 필요하다.
    다양성(Variety)
    - 다양한 종류와 형태를 가진 데이터를 입수하는데 있어 투자가 필요하다.
    속도(Velocity)
    - 데이터 생성 속도 및 처리속도를 빠르게 가공〮분석하는 기술이 요구된다.
    2) 비즈니스 효과(Return) 요소
    가치(Value)
    - 분석 결과를 활용하거나 실질적인 실행을 통해 얻게 되는 비즈니스 효과 측면의 요소로, 기업데이터 분석을 통해 추구하거나 달성하고자 하는 목표 가치를 의미한다.

    * 과제 우선순위 평가기준
    1) 시급성 : 전략적 중요도, 목표가치(KPI) - 가치(Value) - 비즈니스 효과(Return)
    2) 난이도 : 데이터 획득 / 저장 / 가공비용, 분석 적용 비용, 분석 수준 - 크기(Volume), 다양성(Variety), 속도(Velocity) - 투자비용 요소(Investment)
     
    2_2. 분석 거버넌스 체계 수립
    * 거버넌스 체계 구성요소
    - 마스터 플랜 수립 시점에서 데이터 분석의 지속적인 적용과 확산을 위한 거버넌스 체계는 분석 기획 및 관리를 수행하는 조직(Organization), 과제 기획 및 운영 프로세스(Process), 분석 관련 시스템(System), 데이터(Data), 분석 관련 교육 및 마인드 육성 체계(Human Resource)로 구성된다.
     
    * 데이터 분석 수준 진단 2가지
    1) 분석 준비도
    목표 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단방법
    구성 : 분석업무파악, 인력 및 조직, 분석기법, 분석 데이터, 분석문화, IT인프라
    진단 과정
    1. 영역별로 세부 항목에 대한 수준파악
    2. 진단결과 전체 요건 중 일정 수준이상 충족하면 분석업무 도입
    3. 충족하지 못할 시 분석 환경 조성
    2) 분석 성숙도 모델
    조직의 성숙도 평가 도구 : CMMI(Capability Maturity Model Integration) 모델
    성숙도 수준분류 :
    1. 도입 단계 : 분석을 시작하여 환경과 시스템을 구축
    2. 활용 단계 : 분석 결과를 실제 업무에 적용
    3. 확산 단계 : 전사 차원에서 분석을 관리하고 공유
    최적화 단계 : 분석을 진화시켜서 혁신 및 성과 향상에 기여
    분석 성숙도 진단 분류 : 비지니스 부문, 조직〮역량 부문, IT부문

    * 분석 관점에서 사분면 분석(Analysis Quadrant)
    확산형 : 기업에 필요한 6가지 분석 구성요소를 갖추고 있고, 현재 부분적으로 도입되어 지속적인 확산이 필요한 기업 - 성숙도 높음, 준비도 높음
    도입형 : 기업에서 활용하는 분석 업무, 기법 등은 부족하지만 적용 조직 등 준비도가 높아 바로 도입할 수 있는 기업 - 성숙도 낮음, 준비도 높음
    준비형 : 기업에서 필요한 데이터, 인력, 조직, 분석 업무, 분석 기법, 등이 적용되어 있지 않아 사전 준비가 필요한 기업 - 성숙도 낮음, 준비도 낮음
    정착형 : 준비도는 낮으나 조직, 인력, 분석 업무, 분석 기법 등을 기업 내부에서 제한적으로 사용하고 있어 1차적으로 정착이 필요한 기업 - 성숙도 높음, 준비도 낮음

     

    2_3. 분석지원 인프라 방안 수립
    * 분석플랫폼
    - 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미한다.
    - 일반적으로 하드웨어에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할을 수행한다.
    - 분석플랫폼이 구성되어 있는 경우에는 새로운 데이터 분석 니즈가 존재할 경우 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높일 수 있다.

    2_4. 데이터 거버넌스 체계 수립
    * 데이터 거버넌스
    - 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것을 말한다.
    - 마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionary)은 데이터 거버넌스의 중요한 관리 대상이다.

    * 데이터 거버넌스 구성 3요소
    1) 원칙(Principle)
    - 데이터를 유지〮관리하기 위한 지침과 가이드
    - 보안, 품질 기준, 변경관리
    2) 조직(Organization)
    - 데이터를 관리할 조직의 역할과 책임
    - 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트(Data Architect)
    3) 프로세스(Process)
    - 데이터 관리를 위한 활동과 체계
    - 작업절차, 모니터링 활동, 측정 활동
     
    * 데이터 거버너스 체계
    1) 데이터 표준화
    - 데이터 표준화는 데이터 표준 용어 설정, 명명 규칙(Name Rule)수립, 메타 데이터(Meta Data)구축, 데이터 사전(Data Dictionary)구축 등의 업무로 구성된다.
    - 데이터 표준용어는 표준 단어사전, 표준 도메인사전, 표준 코드 등으로 구성되며 사전간 상호 검증이 가능하도록 점검 프로세스를 포함해야 한다.
    - 명명 규칙은 필요시 언어별(한글, 영어 등)로 작성되어 매핑 상태를 유지해야 한다.
    2) 데이터 관리 체계
    - 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터(Meta Data)와 데이터 사전(Data Dictionary)의 관리 원칙을 수립한다.
    - 수립된 원칙에 근거하여 항목별 상세한 프로세스를 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비한다. 
    - 빅데이터의 경우 데이터양의 급증으로 데이터의 생명 주기 관리방안(Data Life Cycle Management)을 수립하지 않으면 데이터 가용성 및 관리비용 증대 문제에 직면하게 될 수 있다.
    3) 데이터 저장소 관리(Repository)
    - 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다.
    - 저장소는 데이터 관리 체계 지원을 위한 워크플로우(Workflow) 및 관리용 응용 소프트웨어(Application)를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야한다.
    - 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용이 가능하다.
    4) 표준화 활동
    - 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시한다.
    - 거버넌스의 조직 내 안정적 정착을 위한 계속적인 변화 관리 및 주기적인 교육을 진행한다.
    - 지속적인 데이터 표준화 개선 활동을 통하여 실용성을 높여야 한다.
     
    2_5. 데이터 조직 및 인력방안 수립
    * 분석을 위한 3가지 조직 구성
    1) 집중구조
    - 전사 분석업무를 별도의 분석전담 조직에서 담당
    - 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능
    - 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음
    2) 기능구조
    - 일반적인 부석 수행 구조, 별도 분석조직이 없고 해당 업무 부서에서 분석 수행
    - 별도 분석조직이 없고 해당 업무 부서에서 분석 수행
    - 전사적 핵심분석이 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음
    3) 분산구조
    - 분석조직 인력들을 현업부서로 직접 배치하여 분석업무 수행
    - 전사차원의 우선순위 수행
    - 분석결과에 따른 신속한 Action 가능
    - 베스트 프랙티스 공유 가능
    - 부서 분석업무와 역할 분담 명확히 해야함(->업무과다 이원화 가능성)

    2_6. 분석 과제 관리 프로세스 수립
    * 분석 과제 관리 프로세스
    1) 과제 발굴 : 개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀(Pool)로 관리하면서 분석 프로젝트를 선정하는 작업을 수행한다
    프로세스 : 1.분석 Idea 발굴 -> 2.분석과제 후보제안 -> 3.분석과제 확정
    2) 과제 수행 : 분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제결과를 공유하고 개선하는 절차를 수행한다.
    프로세스 : 4.팀구성 -> 5.분석과제 실행 -> 6.분석과제 진행관리 -> 7.결과 공유/개선

     

    출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)

    반응형

    댓글

Designed by Tistory.