Hello World/빅데이터전문가

2차시 (빅데이터의 수집)

혼복필 2025. 9. 20. 09:35
728x90
SMALL

[1] 빅데이터의 수집 개요

1. 빅데이터의 생성

 

데이터와 정보(Information)

데이터 Data → 관찰 및 측정을 통해 얻은 단순한 사실이나 결과, 가공되지 않은 상태

정보 Information → 데이터를 가공하여 얻은 결과, 의사결정에 기여

데이터의 존재론적 특징에 따른 구분

정량적 데이터 Quantitative Data → 수치로 계량 가능한 형태, 정형·비정형 형태

정성적 데이터 Qualitative Data → 언어·개념 등 추상적 형태, 비정형 형태

데이터의 구성에 따른 구분

정형 데이터 Structured Data → 사전 정의된 모델 존재, 최적화된 자료구조 적용 가능
ex) 스프레드시트, DBMS

반정형 데이터 Semi-structured Data → 정형·비정형의 중간 형태
ex) HTML, XML, JSON, 로그

비정형 데이터 Unstructured Data → 사전 정의된 모델이나 해석 방법 미약
ex) 멀티미디어 콘텐츠, SNS

데이터 구성에 따른 유용성

수집 난이도 → 쉬움 정형 / 중간 반정형 / 어려움 비정형

구성 복잡도 → 단순 정형 / 중간 반정형 / 매우 복잡 비정형

잠재적 가치 → 낮음 정형 / 중간 반정형 / 높음 비정형

 

2. 빅데이터의 수집

 

정의

시스템의 내외부에서 주기성을 가지고 필요한 형태로 데이터를 모으는 작업

역할

유용한 데이터 선택 → 산출물 품질 향상

최적의 방법론 선택 → 안정성 극대화

수집 소요 비용 최소화


[2] 빅데이터의 수집 방법론

1. 빅데이터 수집 절차 설계

 

(1) 수집 데이터 선정 → 가능성, 정확성, 난이도, 비용, 보안 검토
(2) 세부계획 수립 → 위치와 유형 파악, 수집 계획서 작성
(3) 테스트 수집 진행 → 기술적 검토(데이터 누락·정확성) 행정적 검토(보안·저작권·트래픽)
(4) 본격 수집 진행

 

수집 데이터 선정 고려 요소

가능성 → 주기 통제 가능 여부

정확성 → 데이터 정밀성, 사전처리 필요성

난이도 → 비용·대안 검토

비용 → 직접 비용 소요

보안 → 개인정보, 저작권 문제

세부계획 수립

데이터 위치와 유형 파악 (내부·외부, 특징, 구성, 형태)

수집 계획서 작성 → 데이터 소스, 주기, 방법 포함

테스트 수집 진행

기술적 검토 → 원본과 비교, 누락 확인

행정적 검토 → 보안성, 저작권, 트래픽 검토

 

2. 빅데이터 수집 계획서 구성 요소

 

데이터 소스 → 위치, 형태, 인터페이스, 협약

수집 주기 → 규칙적(주기) 또는 실시간(불규칙), 데이터·트래픽량

수집 방법 → 기술, 사전·사후처리, 대안

 

3. 빅데이터 수집 도구

 

인적 자원 활용 Human Resource → 직접 수집, 비용·오해석·오차 가능성

자동화 도구 Automatic Data Crawler → 사람 개입 최소, 원천 형태에 따라 불가할 수도 있음

 

4. 빅데이터 자동화 수집 기술

 

네트워크 수집
→ 크롤링 Crawling = 사전 정의 패턴 기반 네트워크 데이터 수집
→ OpenAPI = 배포자가 제공하는 인터페이스 활용

로그·센서 수집
→ 로그 Log 수집 = 작동·이용 패턴 기록
→ 센서 Sensor 수집 = 센서 장치 기반 기록


[3] 빅데이터의 수집 사례

 

 

JSON (제이슨)
→ XML과 유사한 데이터 정형화 방식
→ 텍스트 기반 송수신, 작은 용량·빠른 변환
→ 프로그래밍 언어·플랫폼 독립적

Flume (플럼)
→ 2010년 Cloudera 개발, 로그 데이터 수집기
→ 분산 데이터 통합 가능, 안정성·가용성 높음

Chukwa (척와)
→ 2008년 Yahoo 개발, 하둡 기반 로그 데이터 수집기
→ 실시간 분석 가능

SQOOP (스쿱)
→ SQL-to-Hadoop, 다양한 DBMS·하둡·NoSQL 간 데이터 연동

Open Refine (오픈 리파인)
→ 2010년 Google 오픈 프로젝트, 데이터 정제 도구
→ 오류 수정, 데이터 정리, 연계 API 및 워크플로우 기능 제공

Protocol Buffers (프로토콜 버퍼)
→ Google 오픈소스 직렬화 라이브러리
→ 다양한 플랫폼 간 통신 가능

 

728x90
LIST