3차시 (빅데이터 저장소)

Hello World/빅데이터전문가

3차시 (빅데이터 저장소)

혼복필 2025. 9. 22. 03:09

728x90

SMALL

[1] 빅데이터 저장소 개요

1. CAP 이론

일관성 Consistency → 모든 노드 동일 시점 동일 데이터 출력 보장

가용성 Availability → 일부 노드 불가능해도 다른 노드 정상 작동 보장

지속성 Partition Tolerance → 데이터 손실 발생해도 시스템 정상 작동 보장

→ RDBMS의 한계 존재

2. RDBMS의 대안

하둡 Hadoop → 하둡 분산파일시스템(HDFS), 대용량 데이터 처리

NoSQL → 비관계형 데이터 저장소, 데이터 손실 대응

레디스 Redis → NoSQL의 일종, 키-값 구조 저장, 인메모리 기반

우지 Oozie → 자바 서블릿 컨테이너 기반 작업 엔진, DAG 기반 작업 제어

[2] 빅데이터 저장소 설계

1. 하둡 분산 파일 시스템 (HDFS)

구성 요소

네임노드(NameNode) → 파일 위치(iNode), 메타정보 관리, 클라이언트 요청 처리

보조네임노드(Secondary NameNode) → 네임노드 백업, 복구 담당

데이터노드(DataNode) → 데이터를 블록 단위로 분산 저장

클라이언트(Client) → 데이터를 요청하는 사용자

동작 과정
1️⃣ 클라이언트 → 네임노드 : 파일 액세스 위해 메타정보 요청
2️⃣ 네임노드 → 클라이언트 : 데이터노드 위치 정보 반환
3️⃣ 클라이언트 → 데이터노드 : 반환된 정보로 실제 파일 접근

2. NoSQL (Not Only SQL)

데이터 모델 분류

키-밸류 (Key-Value) → 고유키-값 쌍으로 스키마 없이 저장

순차적 키-밸류 (Ordered Key-Value) → 연속성 부여, 영역 스캔 효율 ↑

빅테이블 (BigTable) → 테이블 형식, 2~3단계 재귀 구조 가능

도큐먼트 (Document) → 객체 DB 파생형, 데이터 구조 깊이 제한 없음

그래프 (Graph) → 노드 간 연결, 유연한 관계 표현

시스템 구성

마스터-슬레이브 → 마스터 노드가 메타정보 관리, 서버 추가/삭제 용이, 마스터 부하 ↑

라운드 테이블 → 해시테이블 기반, 트래픽 분산, 단점은 데이터 이동 발생

[3] 빅데이터 저장소 관리

1. 하둡 명령어

ls → 파일(폴더) 조회

> hadoop fs -ls /

put → 로컬 → HDFS 업로드

> hadoop fs -put l_myData.txt h_myData.txt

get → HDFS → 파일 가져오기

> hadoop fs -get h_myData.txt l_myData.txt

cp → HDFS 내 파일 복사

> hadoop fs -cp myData.txt myData2.txt

rm → HDFS 파일 삭제

> hadoop fs -rm myData2.txt

chmod → 권한 변경

> hadoop fs -chmod 700 myData.txt

chown → 소유권 변경

> hadoop fs -chown bjhan myData.txt

2. MongoDB (몽고DB)

MongoDB 특징

문서 지향 DB → 문서(document), 배열(array) 개념 도입

복잡한 계층 관계 → 하나의 레코드로 표현 가능

NoSQL DB

더블 링크드 리스트 구조 → 양방향 탐색 가능

MongoDB 주요 개념

데이터베이스 (Database) → 컬렉션들의 집합

컬렉션 (Collection) → 유사한 도큐먼트의 집합

익스텐트 (Extent) → 데이터 저장의 논리 단위

도큐먼트 (Document) → 정렬된 키-값 쌍의 집합

주요 명령어

use → DB 생성 및 사용

> use mydatabase

dropDatabase() → 현재 DB 삭제

> db.dropDatabase()

createCollection() → 컬렉션 생성

> db.creatCollection("test")
drop() → 컬렉션 삭제

> db.test.drop()

insert() → 도큐먼트 삽입

> db.test.insert({...})

remove() → 도큐먼트 삭제

> db.test.remove({...})

728x90

LIST

'Hello World > 빅데이터전문가' 카테고리의 다른 글

6차시 (빅데이터 분석 도구 R (3)) (0)	2025.10.06
5차시 (빅데이터 분석 도구 R (2)) (0)	2025.09.30
4차시 (빅데이터 분석 도구 R (1)) (0)	2025.09.27
2차시 (빅데이터의 수집) (0)	2025.09.20
1차시 (빅데이터의 개념) (2)	2025.09.20

현재글3차시 (빅데이터 저장소)

혼자 복습하고 필기하는

배운 것을 정리해요﹏〆(･ω･。)

250x250

풀스택, 백엔드, ai활용전문가, 백엔드개발자, 취업준비, 인공지능, Django, Ai, 오름캠프, 빅데이터, 알고리즘, github, 4차산업혁명, 장고, bear-u, 데이터분석, 자격증, 빡공단, 실습, python,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

혼자 복습하고 필기하는