-
[ADsP] 1과목 데이터 이해 - 요약 정리ADsP 2021. 2. 27. 20:47반응형
1. 데이터의 이해
1_1. 데이터와 정보
* 데이터의 정의
1) 데이터(Data)라는 용어는 1646년 영국 문헌에 처음 등장하였으며 라틴어인 dare(주다)의 과거 분사형으로 ‘주어진 것’이란 의미로 사용되었다.
2) 1940년대 이후 컴퓨터 시대 시작과 함께 자연 과학뿐만 아니라 경영학, 통계학 등 다양한 사회 과학이 진일보하며, 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화되었다.
3) 데이터는 추론과 추정의 근거를 이루는 사실이다. ㅂ(옥스퍼드 대사전)
4) 데이터는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명되고 있다.
* 데이터의 유형
1) 정성적 데이터(Qualitative Data)
- 저장, 검색, 분석에 많은 비용이 소모되는 언어, 문자 형태의 데이터 (예 : 회사 매출이 증가함 등)
- 비정형 데이터
- 주관적 내용
- 통계 분석이 어려움
2) 정량적 데이터(Quantitative Data)
- 정형화된 데이터로 수치, 도형, 기호 등의 형태를 가진 데이터 (예 : 나이, 몸무게, 주가 등)
- 정형 데이터
- 객관적 내용
- 통계 분석이 용이함
* 지식경영의 핵심 이슈
데이터는 지식경영의 핵심 이슈인 암묵지(Tatic knowledge)와 형식지(explicit knowledge)의 상호작용에 있어 중요한 역할을 한다.
1) 암묵지(Tatic knowledge)
- 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식 (예 : 김장김치 담그기, 자전거 타기)
- 사회적으로 중요하지만 공유되기 어려움
- 개인에게 축적된 내면화(internalization)된 지식 -> 조직의 지식으로 공통화(socialization)
2) 형식지(Explicit Knowledge)
- 문서나 매뉴얼처럼 형상화된 지식 (예 : 교과서, 비디오, DB)
- 전달과 공유가 용이함
- 언어, 기호, 숫자로 표출화(externalization)된 지식 -> 개인의 지식으로 연결화(combination)
* DIKW의 정의
데이터(Data) : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
정보(Information) : 데이터의 가공, 처리와 데이터간 연관관계 속에서 의미가 도출된 것
지식(Knowledge) : 데이터를 통해 도출된 다양한 정보를 구조화하여 유의미한 정보를 분류하고 개인적인 경험을 결합시켜 고유의 지식으로 내재화된 것
지혜(Wisdom) : 지식의 축적과 아이디어가 결합된 창의적인 산물
* DIKW 피라미드
DIKW 피라미드에서는 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하고 있다.
데이터(Data) : 존재 형식을 불문하고, 타 데이터와 상관 관계가 없는 가공하기 전의 순수한 수치나 기호를 의미 예) A마트는 100원에, B마트는 200원에 연필을 판매한다.
정보(Information) : 데이터의 가공 및 상관관계간 이해를 통해 패턴을 인식하고 그 의미를 부여한 데이터 예) A마트의 연필이 더 싸다.
지식(Knowledge) : 상호 연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물 예) 상대적으로 저렴한 A마트에서 연필을 사야겠다.
지혜(Wisdom) : 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 예) A마트의 다른 상품들도 B마트보다 쌀 것이라고 판단한다.
1_2. 데이터베이스 정의와 특징
* 용어의 연혁
1950년대 - 미국에서 군대의 군비상황을 집중 관리하기 위하여 컴퓨터 도서관을 설립하면서 데이터(Data)의 기지(Base)라는 뜻의 데이터베이스가 탄생
1975년대 - 미국의 CAC가 KORSTIC을 통해 서비스되면서 우리나라에서 데이터베이스 이용이 이루어짐
1980년대 중반 - 국내의 데이터베이스 관련 기술의 연구, 개발
* 데이터베이스 일반적인 특징
통합된 데이터 (Integrated Data)
- 동일한 내용의 데이터가 중복되어 있지 않다는 것을 의미
- 데이터 중복은 관리상의 부작용을 초래
저장된 데이터 (Stored Data)
- 자기 디스크나 자기 테이프 등과 같이 컴퓨터가 접근할 수 있는 저장 매체에 저장되는 것을 의미
- 데이터베이스는 기본적으로 컴퓨터 기술을 바탕으로 한 것
공용 데이터 (Shared Data)
- 여러 사용자가 서로 다른 목적으로 데이터를 공동으로 이용한다는 것을 의미
- 대용량화 되고 구조가 복잡한 것이 보통
변화되는 데이터 (Changeable Data)
- 데이터베이스에 저장된 내용은 곧 데이터베이스의 현시점에서의 상태를 나타냄
- 다만 이 상태는 새로운 데이터의 삽입, 기존 데이터의 삭제, 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야 함.
* 데이터베이스의 다양한 측면에서의 특징
정보의 축적 및 전달 측면
기계 가독성 : 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있음
검색 가독성 : 다양한 방법으로 필요한 정보를 검색
원격 조작성 : 정보통신망을 통하여 원거리에서도 즉시 온라인을 이용
1_3. 데이터베이스의 활용
* OLTP(On-Line Transaction Processing) : 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나이다. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고, 바로 처리 결과를 돌려보내는 형태를 말한다. 즉, 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다. 주문입력시스템, 재고관리시스템 등 현업의 거의 모든 업무는 이와 같은 성격을 띠고 있다.
* OLAP(On-Line Analytical Processing) : 정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻을 수 있게 해주는 기술이다. OLTP에서 처리된 트랜잭션 데이터를 분석해 제품의 판매 추이, 구매 성향 파악, 재무 회계 분석 등을 프로세싱하는 것을 의미한다. OLTP가 데이터 갱신 위주라면, OLAP는 데이터 조회 위주라고 할 수 있다.
* CRM(Customer Relationship Management) : ‘고객관계관리’라고 하며, 기업이 고객과 관련된 내˙외부 자료를 분석˙통합해 고객 중심 자원을 극대화하고, 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획˙지원˙평가하는 과정이다.
* SCM(Supply Chain Management) : ‘공급망 관리’를 뜻하는 말로, 기업에서 원재료의 생산˙유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는 시간과 장소에 제공하는 것이다.
* ERP(Enterprise Resource Planning) : 인사˙재무˙생산 등 기업의 전 부문에 걸쳐 독립적으로 운영되던 각종 관리 시스템의 경영자원을 하나의 통합 시스템으로 재구축함으로써 생산성을 극대화하려는 경영혁신기법을 의미한다.
* BI(Business Intelligence) : 비즈니스 인텔리전스란 기업이 보유하고 있는 수많은 데이터를 정리하고 분석해 기업의 의사결정에 활용하는 일련의 프로세스를 말한다.
* RTE(Real-Time Enterprise) : 회사의 주요 경영정보를 통합 관리하는 실시간 기업의 새로운 기업경영시스템이다. 전사적자원관리(ERP), 판매망관리(SCM), 고객관리(CRM) 등 부문별 전산화에서 한발 나아가 회사 전 부문의 정보를 하나로 통합함으로써 경영자의 빠른 의사결정을 이끌어 내려는 목적에서 만들어졌으며 기업활동이 글로벌화되고 기술의 발전으로 제품 수명이 짧아지는 현실에 대응되고 있다.
* EAI(Enterprise Application Integration) : 기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동하여 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것으로 e-비즈니스를 위한 기본 인프라이다.
* EDW(Enterprise Data Warehouse) : 기존 DW(Data Warehouse)를 전사적으로 확장한 모델로 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천이 된다. 따라서 EDW를 구축하는 것은 단순히 정보를 빠르게 전달하는 대형 시스템을 도입한다는 의미가 아니라 기업 리소스의 유기적 통합, 다원화된 관리 체계 정비, 데이터 중복 방지 등을 위해 시스템을 재설계하는 것을 나타낸다.
* KMS(Knowledge management System) : 지식관리시스템을 의미하며, 기업의 환경이 물품을 주로 생산하던 산업사회에서 지적 재산의 중요성이 커지는 지식 사회로 급격히 이동함에 따라, 기업 경영을 지식이라는 관점에서 새롭게 조명하는 접근방식이다.
* RFID(RF, Radio Frequency) : 주파수를 이용해 ID를 식별하는 SYSTEM으로 일명 전자태그로 불린다. 전파를 이용해 먼 거리에서 정보를 인식하는 기술로 적용대상에 RFID 칩을 부착한 후 리더기를 통해 정보를 인식한다.
2. 데이터의 가치와 미래
2_1. 빅데이터의 이해
* 빅데이터의 관점에 따른 정의
1) 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의가 있다.
2) 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위의 정의가 있다.
3) 인재, 조직 변화까지 포함한 넓은 관점에서의 빅데이터에 대한 정의가 있다.
* 가트너 그룹(Gartner Group), 더그 래니(Doug Laney)의 3V
규모(Volume) : 데이터의 규모 측면, 예) 센싱 데이터, 비정형 데이터
형태(Variety) : 데이터의 유형과 소스 측면, 예) 정형, 비정형데이터 (영상, 사진)
속도(Velocity) : 데이터의 수집과 처리 측면, 예) 원하는 데이터의 추출 및 분석 속도
3V에 가치(Value), 시각화(Visualization), 정확성(Veracity) 등을 포함한 4V의 개념이 생성되고 있음.
* 빅데이터 정의의 범주 및 효과
데이터 변화
- 규모(Volume), 형태(Variety), 속도(Velocity)
기술 변화
- 데이터 처리, 저장, 분석기술 및 아키텍처
- 클라우드 컴퓨팅 활용
인재, 조직 변화
- Data Scientist 같은 새로운 인재 필요
- 데이터 중식 조직
기존 방식으로는 얻을 수 없는 통찰 및 가치 창출, 사업방식, 시장, 사회, 정부 등에서 변화와 현식 주도
* 빅데이터에 거는 기대의 비유적 표현
산업혁명의 석탄과 철 : 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회〮경제〮문화〮생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
21세기의 원유 : 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상하고,기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.
렌즈 : 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다. 예) Ngram Viewer
플랫폼 : ‘공동 활용의 목적으로 구축된 유무형의 구조물’로써의 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망된다. 예) 카카오톡, 페이스북 등
* 빅데이터가 만들어 내는 본질적인 변화 - 과거에서 현재로의 변화
사전처리 -> 사후처리 : 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
표본조사 -> 전수조사 : 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 감소하게 되었다. 이로 인해 표본을 조사하는 기존의 지식 발견 방식에서 전수조사를 통해 샘플링이 주지 못하는 패턴이나 정보를 발견하는 방식으로 데이터 활용 방법이 변화되었다.
질 -> 양 : 데이터가 지속적으로 추가될 경우 양질의 정보가 오류 정보보다 많아 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둔 변화가 나타나고 있다.
인과관계 -> 상관관계 : 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이트가 인과 관계에 의한 미래 예측에 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
2_2. 빅데이터의 가치와 영향
* 빅데이터의 가치 산정이 어려운 이유
1) 데이터 활용방식 : 데이터 활용 방식에서는 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제〮어디서〮누가 활용할지 알 수 없게 되었다. 따라서 가치를 산정하는 것도 어려워졌다.
2) 새로운 가치 창출 : 빅데이터 시대에는 데이터가 ‘기존에 없던 가치’를 창출함에 따라 그 가치를 측정하기가 어려워졌다.
3) 분석 기술 발전 : 현재는 가치가 없는 데이터일지라도, 추후에 새로운 분석 기법이 등장한다면 거대한 가치를 지닌 데이터가 될 수 있다.
* 빅데이터의 영향
다양한 시장 주체들이 빅데이터를 활용함에 따라 소비자이면서 국민인 일반인들은 맞춤형 서비스를 저렴한 비용으로 이용하게 되고, 적시에 필요한 정보를 얻음으로써 다양한 형태로 기회비용을 절약할 수 있어 사람들의 생활이 점점 스마트해지고 있다.
기업 : 혁신, 경쟁력 제고, 생산성 향상 -> 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴한다.
정부 : 환경 탐색, 상황 분석, 미래 대응 -> 기상, 인구 이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정, 정보를 추출한다.
개인 : 목적에 따른 활용 -> 빅데이터를 서비스하는 기업의 출현이 늘어나면서, 데이터 분석 비용이 지속적으로 하락하여 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용한다.
2_3. 비즈니스 모델
* 빅데이터를 활용한 기본 테크닉
연관 규칙 학습 : 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
예시) 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형분석 : 문서를 분류하거나 조직을 그룹으로 나눌 때, 또는 온라인 수강생들을 특성에 따라 분류할 때 사용
예시) 이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전 알고리즘 : 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화(evolve)시켜 나가는 방법
예시) 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
기계학습 : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법
예시) 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어 할까?
회귀분석 : 독립변수를 조작함에 따라, 종속변수가 어떻게 변하는지를 보면서 두 변인의 관계를 파악할 때 사용,
예시) 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
감정분석 : 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
예시) 새로운 환불 정책에 대한 고객의 평가는 어떤가?
소셜 네트워크 분석(=사회관계망 분석)특정인과 다른 사람이 몇 촌 정도의 관계인가를 파악할 때 사용하고, 영향력있는 사람을 찾아낼 때 사용
예시) 고객들 간 관계망은 어떻게 구성되어 있나?
빅데이터가 등장하기 이전엔 정형 데이터(연관 규칙 학습,유형분석, 유전자 알고리즘, 기계학습, 회귀분석)를 주로 이용하였고, 최근 SNS가 발달함에 따라 비 정형화된 데이터(감정분석, 소셜네트워크분석)를 많이 이용하고 있다.
2_4. 위기 요인과 통제 방안
* 빅데이터 시대의 위기 요인
1) 사생활 침해 : 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해를 넘어 사회〮경제적 위협으로 변형될 수 있다.
예시) 여행 사실을 트위트 한 사람의 집을 강도가 노리는 고전적 사례 발생 -> 익명화(anonymization) 기술 발전이 필요하다.
2) 책인 원칙 훼손 : 빅데이터 기본 분석과 예측기술이 발전하면서 정확도가 증가한 만큼, 분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다. 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있어 이에 따른 원리를 훼손할 가능성이 있다.
예시) 영화 “마이너리티 리포트”에 나오는 것처럼 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포, 자신의 신용도와 무관하게 부당하게 대출이 거절되었다. -> 민주주의 국가의 형사 처벌은 잠재적 위협이 아닌 명확하게 행동한 결과에 대해 책임을 묻고 있다.
3) 데이터 오용 : 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다.
예시) 베트남 전쟁 때, 맥나마라 장군은 적군 사망자 수를 전쟁의 진척상황을 나타내는 지표로 활용했고 그 결과 적군 사망자 수는 과장돼 보고되는 경향을 보여 결과적으로 전쟁 상황을 오보하는 결과를 일으켰다.
* 위기 요인에 따른 통제 방안
1) 동의에서 책임으로 : 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많고 매번 개인정보 제공 동의를 하는 비효율적인 단계를 줄이고자 개인정보를 사용하는 사용자의 ‘책임’으로 해결하는 방안을 제시하였다. (‘개인정보 제공자의 동의’ -> ‘개인정보 사용자의 책임’)
기대효과) 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지게 됨으로 사용주체의 적극적인 보호장치를 강구할 수 있다.
2) 결과 기반 책임 원칙 고수 : 책임원칙 훼손 위기요인에 대한 통제 방안으로 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며, 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요하다.
기대효과) 잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해 최소화 장치를 마련해야 한다.
3) 알고리즘 접근 허용 : 데이터 오용의 위기요소에 대한 대응책으로 ‘알고리즘에 대한 접근권’을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.
기대효과) 불이익을 당한 사람들을 대변할 전문가(알고리즈미스트)가 필요하게 되었다.
2_5. 미래의 빅데이터
* 빅데이터 기본 3요소
1) 데이터 : 모든 것을 데이터화(datafication) 하는 현 추세로 특정 목적 없이 축적된 데이터를 통한 창의적인 분석이 가능해져, 새로운 가치로 부상하고 있다.
2) 기술 : 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현하였다.
3) 인력 : 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해지고 있다.
* 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자
* 알고리즈미스트 : 데이터 사이언티스트가 한 일로 인해 부당하게 피해가 발생하는 것을 막는 역할을 하며 알고리즘 코딩 해석을 통해 빅데이터 알고리즘에 의해 부당하게 피해를 입은 사람을 구제하는 전문인력
3. 가치창조를 위한 데이터 사이언스와 전략 인사이트
3_1. 빅데이터 분석과 전략 인사이트
* 산업별 분석 애플리케이션
금융 서비스 : 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
제조업 : 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발
병원 : 가격 책정, 고객 로열티, 수익 관리
에너지 : 트레이딩, 공급, 수요 예측
정부 : 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화
* 일차적인 분석의 문제점
- 일차적인 분석을 통해서도 해당 부서나 업무 영역에서는 상당한 효과를 얻을 수 있지만 일차적인 분석만으로는 환경변화와 같은 큰 변화에 제대로 대응하거나 고객 환경의 변화를 파악하고 새로운 기회를 포착하기 어렵다. 특히, 급변하는 환경에서는 분석을 일차적 차원에서 점증적, 전술적으로 사용하며 성과는 미미할 수 있다.
* 전략 도출 가치 기반 분석
- 전략적인 통찰력 창출에 포커스를 뒀을 때, 분석은 해당 사업에 중요한 기회를 발굴하고, 주요 경영진의 지원을 얻어낼 수 있으며, 이를 통해 강력한 모멘텀을 만들어 낼 수 있다.
- 최고가 되기 위해서는 일차원적인 분석을 통해 점점 분석 경험을 쌓아야하고 작은 성공을 거두면 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야 한다.
- 사업성과를 견인하는 요소들과 차별화를 꾀할 기회에 대해 전략적 인사이트를 주는 가치기반 분석단계로 나아가야 한다.
3_2. 전략 인사이트 도출을 위한 필요 역량
* 데이터 사이언스
- 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문이다. 데이터로부터 의미있는 정보를 추출해내는 학문으로 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지를 포함한 포괄적 개념이다.
- 데이터 사이언티스트는 비즈니스의 성과를 좌우하는 핵심이슈에 답을 하고, 사업의 성과를 견인해 나갈 수 있어야 한다. 이는 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유이다.
* 데이터 사이언스 영역
1) 분석적 영역 : 수학, 확률모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
2) 데이터 처리와 관련된 IT영역 : 시그널프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
3) 비즈니스 컨설팅 영역 : 커뮤티케이션, 프레젠테이션, 스토리텔링, 시각화 등
* 데이터 사이언티스트의 역할
- 데이터 사이언티스트는 데이터 홍수 속에서 헤엄을 치고, 데이터 소스를 찾고, 복잡한 대용량 데이터를 구조화, 불완전한 데이터를 서로 연결해야 한다.
- 데이터 사이언티스트가 갖춰야 할 역량 중 한 가지는 ‘강력한 호기심’이다. 호기심이란 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력을 의미한다.
- 데이터 사이언티스트는 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력 등을 갖춰야 한다.
* 데이터 사이언티스트의 요구 역량
1) Hard Skill
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
2) Soft Skill
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, 비주얼라이제이션
- 다분야간 협력 : 커뮤니케이션
* 외부 환경적 측며에서 본 인문학 열풍의 이유
컨버전스 -> 디버전스 : 단순 세계화에서 복잡한 세계화로의 변환
예시) 규모의 경제, 세계화, 표준화, 이성화 -> 복잡한 세계, 다양성, 관계, 연결성, 창조성
생산 -> 서비스 : 비즈니스 중심이 제품 생산에서 서비스로 이동
예시) 고장 나지 않은 제품의 생산 -> 뛰어난 서비스로 응대
생산 -> 시장창조 : 공급자 중심의 기술 경쟁에서 무형 자산의 경쟁으로 변화
예) 생산에 관련된 기술 중심, 기술 중심의 대규모 투자 -> 현재 패러다임에 근거한 시장 창조 현지 사회와 문화에 관한 지식
3_3. 빅데이터 그리고 데이터 사이언스의 미래
* 빅데이터 회의론을 넘어 가치 패러다임의 변화
과거 : 아날로그 세상을 어떻게 효과적으로 디지털화하는가가 과거의 가치 창출 원천
현재 : 디지털화된 정보와 대상들을 서로 연결 시작, 연결을 더 효과적이고 효율적으로 제공하는가가 성공 요인
미래 : 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가의 이슈
출처 : ADsP 데이터 분석 준전문가 (출판 : 데이터에듀)
반응형'ADsP' 카테고리의 다른 글
[ADsP] 1과목 데이터 이해 - 기출문제 해설 (0) 2021.02.27 [ADsP] 3과목 데이터 분석_요약 정리(5.정형 데이터 마이닝) (0) 2021.02.27 [ADsP] 3과목 데이터 분석_요약 정리(4.통계분석) (0) 2021.02.27 [ADsP] 3과목 데이터 분석_요약 정리(1.데이터 분석 개요, 2.R 프로그래밍 기초, 3.데이터 마트) (0) 2021.02.27 [ADsP] 2과목 데이터 분석 기획 - 요약 정리 (0) 2021.02.27