분석 기획
실제 분석을 수행하기에 앞서 과제를 정의하고 의도했던 결과를 도출할 수 있도록 적절한 관리 방안을 사전 계획 하는 작업
분석 기획에서의 데이터 사이언스 역량
분석 역량
⤷ 문제 영역에 대한 전문성과 수학 통계학적 지식
기술 역량
⤷ 균형 잡힌 시각과 데이터, 프로그래밍
분석 대상과 방법
방법과 대상을 알면 → 최적화 (Optimization)
방법을 모르면 → 솔루션 (Solution)
대상을 모르면 → 통찰 (Insight)
둘 다 모르면 → 발견 (Discovery)
분석 기획 방안
과제 중심적 접근 : 빠르게 해결
⤷ Speed & Test
⤷ Quick & Win
⤷ 문제 해결
장기적 마스터플랜 : 분석 내재화
⤷ Accuracy & Deploy
⤷ Long Term View
⤷ 문제 정의
분석 기획 시 고려사항
가용 데이터 : 분석의 기본이 되는 데이터 확보 우선, 유형에 대한 분석 선행적
적절한 유스 케이스 : 분석을 통해 가치가 창출될 수 있음
장애요소들에 대한 사전계획 수립 : 일회성 분석에 그치지 않고 조직의 역량으로 내재화
참고
정형 데이터 : 데이터 자체로 분석 가능, RDB구조 데이터, 데이터 베이스로 관리
⤷ ERP, CRM, SCM 등 정보 시스템
반정형 데이터 : 데이터로 분석 가능하나 해석 불가능, 메타 정보 활용해야 해석 가능
⤷ 로그데이터, 모바일데이터, 센싱데이터
비정형 데이터 : 데이터 자체로 분석 불가능, 특정 처리 프로세스를 거치고 분석 데이터로 변경 후 분석
⤷ 영상, 음성, 문자
분석 방법론
상세한 절차, 방법, 도구와 기법, 템플릿과 산출물로 구성
⤷ 경험과 감에 따른 직관적인 의사결정 → 데이터 기반의 의사결정
합리적 의사결정을 가로막는 장애요소
⤷ 고정관념, 편향된 생각, 프레이밍 효과(문제 표현 방식에 따라 동일한 사건이나 상황임에도 개인의 판단 혹은 선택이 달라질 수 있는 현상)
모델 타입
폭포수 모델 : 순차적 진행, 이전 단계 완료 후 다음 단계로, 하향식 진행
나선형 모델 : 여러 번 개발 과정을 거쳐 점진적 완성, 관리체계를 효과적으로 갖추지 못하면 복잡도 상승
프로토타입 모델 : 일부분 우선 개발 후 개선 작업을 거침, 시스템의 초기 모델
그 외 방법론
KDD 분석 방법론 : 데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터 마이닝 → 분석 결과 평가
⤷ 전처리 과정 : 이상값, 잡음 식별 / 데이터 변환 과정 : 분석 목적에 맞는 변수 선택 및 차원 축소 과정 진행
CRISP-DM 분석 방법론 : 업무 이해 → 데이터 이해 → 데이터 준비 → 모델링 → 평가&분석
⤷ 모델링 단계 : 모델 평가하지만 모델 적용성 평가는 그다음 단계인 평가&분석에서 진행
빅데이터 분석 방법론 : <분석 기획> → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가&전개
⤷ <분석 기획> : 범위 설정 → 프로젝트 정의&계획 → 위험 식별&대응
⤷ 추가적인 데이터 확보 필요시 데이터 준비 단계로 다시 진행
지도 학습과 비지도 학습
지도 학습
⤷ 명확한 목적에 데이터 분석 실시
⤷ 자료가 입력 변수와 출력 변수로 주어짐, 예측 모형을 얻을 때
비지도 학습
⤷ 데이터 자체의 결합, 연관성 중심의 데이터 상태를 표현
⤷ 데이터 마이닝에서 자료가 출력 변수 없이 입력 변수만 주어지는 경우
하향식 접근 방식
문제가 주어지고 이에 대한 해법을 찾기 위해 과정 진행, 지도 학습
⤷ 분석적으로 사물을 인식하려는 'Why' 관점
⤷ <문제 탐색> → 문제 정의 → 해결방안 탐색 → <타당성 검토> → 선택
<문제 탐색> : 문제를 빠짐없이 도출 후 식별, 문제를 해결함에 발생하는 가치 중점
⤷ 거시적 관점 : STEEP(사회·기술·경제·환경·정치)
⤷ 경쟁자 확대 관점 : 대체자, 경쟁자, 신규 진입자
⤷ 사장의 니즈 탐색 관점 : 고객, 채널, 영향자
⤷ 비즈니스 모델 관점 : 업무, 제품, 고객, 규제와 감사, 지원 인프라
<타당성 검토> : 대안 과제화를 위해 다각적인 타당성 분석이 수행되어야 함
⤷ 경제적 타당성 : 비용대비 편익 분석 관점 접근 필요
⤷ 데이터 타당성 : 데이터 존재 여부, 분석 역량 필요
⤷ 기술적 타당성 : 역량 확보 방안 사전 수립
상향식 접근 방식
문제 정의 자체가 어려운 경우 데이터 기반으로 문제 탐색, 비지도 학습에 의해 데이터 분석
⤷ 사물을 있는 그대로 인식하는 'What' 관점
⤷ 프로세스 분류 → 프로세스 흐름 분석 → 분석 요건 식별 → 분석 요건 정의
분석 과제 정의서
분석별로 필요한 소스데이터, 분석방법, 데이터 입수 및 분석 난이도, 상세 분석 등 정의
분석 과제 관리 주요 5가지
데이터 크기 / 데이터 복잡성 / 속도 / 분석 복잡성 / 정확성, 정밀도
분석 프로젝트 관리 방안 10가지
범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스크 / 의사소통 / 이해관계자
분석 마스터플랜 수립
전략적 중요도, 비즈니스 성과 및 ROI, 실행 용이성 등 기준을 고려하여 적용 우선순위 결정
⤷ 전략적 중요도 : 필요성 + 시급성
⤷ 실행 용이성 : 투자 용이성 + 기술 용이성
업무 내재화 적용 수준, 분석 데이터 적용 수준, 기술 적용 수준을 고려하여 Analytics 구현 로드맵 수립
ISP : 정보기술 or 정보 시스템을 전략적 활용을 위해 중장기 마스터플랜을 수립하는 절차
ROI 관점 특징
투자 비용 요소(난이도) 3V : 규모 (Volume), 유형 (Variety), 속도 (Velocity)
비즈니스 효과(시급성) : 가치 (Value)
우선순위
⤷ 시급성 기준으로는 III→IV→II (반시계)
⤷ 난이도 기준으로는 III→I→II (시계)
분석 거버넌스 체계
⤷ 조직(Organization)
⤷ 프로세스(Process)
⤷ 시스템(System)
⤷ 데이터(Data)
⤷ 분석 관련 교육 및 마인드 육성 체계(Human Resource)
데이터 분석 수준 진단
분석 준비도
⤷ 분석업무 파악 / 인력 및 조직 / 분석기법 / 분석 데이터 / 분석 문화 / IT 인프라
분석 성숙도
⤷ 도입 / 활용 / 확산 / 최적화 단계
준비도가 x축, 성숙도가 y축일 때 왼쪽 위를 기준으로 시작해 시계방향으로 정착형 → 확산형 → 도입형 → 준비형
데이터 거버넌스
전사 차원의 모든 데이터를 표준화된 관리체계를 수립&운영, 프레임워크 및 저장소를 구축
중요 관리 대상 : <마스터 데이터>, 메타 데이터, 데이터 사전
⤷ <마스터 데이터> : 변하지 않아 처리 운영에 기본이 되는 자료 (ex 이름, 생일)
구성 요소 : 원칙 / 조직 / 프로세스
체계 : 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동
⤷ 뭔가 구축 → 데이터 표준화
⤷ 데이터 관리 → 데이터 관리 체계
⤷ 데이터 저장소 → 데이터 저장소 관리
분석을 위한 조직 3가지
집중 구조 : 부서가 따로 있음, 현업 업무 부서와 분석 업무 부서 이원화 가능성 높음
기능 구조 : 별도의 분석 조직이 없음
분산 구조 : 분산 조직 인력들 현업 부서로 배치, 신속한 Action 가능
분석 과제 프로세스
과제 발굴 : 분석 idea 발굴 → 분석 과제 후보 제안 → 분석 과제 확정
과제 수행 : 팀 구성 → 분석과제 실행 → 분석 과제 진행 관리 → 결과 공유&개선
CMMI
능력 성숙도 통합 모델 : 1~5단계로 구성
'Hello World > ADsP' 카테고리의 다른 글
Good bye 2024 (1) | 2024.12.19 |
---|---|
빅데이터의 이해 (0) | 2023.08.05 |
데이터와 정보 (0) | 2023.08.03 |