1. 빅데이터 프로세싱 기술의 개요
- 전통적 기술
하둡 : 저장(HDFS[분산 데이터 저장) + 처리(맵리듀스[분산데이터 처리)
문제점 : 일괄처리, 실시간 처리 미지원, 처리부하 -> 기업니즈 불충족
- 발전적 기술
예) 수집(카프카) -> 저장(HDFS) -> 분석(스파크)
- 대표 아키텍처 람다 아키텍처 -> 카파 아키텍처
2. 빅데이터 프로세싱 아키텍처 람다,카파
가. 분산 데이터 프로세싱 경험기반, 람다 아키텍처
정의 : 데이터 분석 요청 시 모든 데이터를 대상으로 기능을 수행할 수 있도록
배치/스피드/서빙 레이어로 구성된 아키텍처
1) 배치레이어
- 모든 데이터 마스터 데이터 셋 저장(재계산->선계산->통합->배치뷰)
- 마스터 데이터 셋 : Immutable Data(읽기전용)
동시성제어, 충돌복잡성, 다양한 장애 대응 가능
2) 스피드레이어
- 핵심요소 : 지연시간 최소화
나. 람다 아키텍처의 관리 복잡도 개선, 카파 아키텍처
정의 : 람다 아키텍처 코드 공유 복잡성 문제 해결을 위한 배치 레이어 제거,
모든 계산을 스피드 레이어에서 스트림으로 처리하는 아키텍처
핵심 : 단일 프레임워크를 활용하여 운영,관리 부분 단순화 개발, 테스트 디버깅 효율 증가
3. 빅데이터 프로세싱 도구 현황
- 각 레이어간 특성을 반영하고 유기적 연계할 수 있는 도구
가. 데이터 수집 도구
- 고려 사항
. 요소 : 수집 대상/환경, 데이터 형식(정형,비정형,반정형), 전송방법
. 도구 : 확장성, 안정성, 유연성, 실시간성
- 대표적 수집도구
카프카, 플룸
나. 배치 레이어 도구
- 대표적 도구 : 맵리듀스, 테즈, 스파크, 플링크
- 네이티브 스트리밍과 마이크로 배치 모델로 구분
- 네이티브 스트리밍 모델 : 실시간 모델
(장점) 지연 감소.
(단점) 내고장성 구성 복잡도 증가, 부하분산 기능 저하
- 마이크로 배치 : 수 초내 데이터를 작은 단위로 묶어서 처리
(장점) 내고장성 구성 용이, 고용량 처리, 부하 분산 단순화
(단점) 배치 크기에 다른 지연 비례성
라. 서빙 레이어 도구
- 배치,스피드 레이어 프로세싱 결과를 저장하는 데이터베이스, 사용자 인터랙션을 수행하는 쿼리 엔진 부분으로 구성
- 대표
(데이터베이스) 엘리펀트DB, HBase, 카산드라
(쿼리엔진) 하이브, 임팔라, 프레스토
4. 결론
- 컴퓨팅 리소스 최적 제공 및 지연시간 최소화, 성능 개선을 위한 람다
- 람다의 복잡성 개선 카파
- 비즈니스 최적화 제타 아키텍처, 사물 인터넷 아키텍처 IoT-A
댓글 없음:
댓글 쓰기