2016년 12월 7일 수요일

[★★주기동 1770호★★] 빅데이터 프로세싱 아키텍처 기술 및 도구 현황, 람다/카파 아키텍처

keyword : 람다 아키텍처, 카파 아키텍처


1. 빅데이터 프로세싱 기술의 개요
  - 전통적 기술
    하둡 : 저장(HDFS[분산 데이터 저장) + 처리(맵리듀스[분산데이터 처리)
 
    문제점 : 일괄처리, 실시간 처리 미지원, 처리부하 -> 기업니즈 불충족

  - 발전적 기술
    예) 수집(카프카) -> 저장(HDFS) -> 분석(스파크)

  - 대표 아키텍처  람다 아키텍처 -> 카파 아키텍처

2. 빅데이터 프로세싱 아키텍처 람다,카파 

 가. 분산 데이터 프로세싱 경험기반, 람다 아키텍처
   정의 : 데이터 분석 요청 시 모든 데이터를 대상으로 기능을 수행할 수 있도록
           배치/스피드/서빙 레이어로 구성된 아키텍처

    1) 배치레이어
         - 모든 데이터 마스터 데이터 셋 저장(재계산->선계산->통합->배치뷰)
         - 마스터 데이터 셋 : Immutable Data(읽기전용)
                                    동시성제어, 충돌복잡성, 다양한 장애 대응 가능
    2) 스피드레이어
         - 핵심요소 : 지연시간 최소화




 나. 람다 아키텍처의 관리 복잡도 개선, 카파 아키텍처

 정의 : 람다 아키텍처 코드 공유 복잡성 문제 해결을 위한 배치 레이어 제거,
            모든 계산을 스피드 레이어에서 스트림으로 처리하는 아키텍처

 핵심 : 단일 프레임워크를 활용하여 운영,관리 부분 단순화 개발, 테스트 디버깅 효율 증가





3. 빅데이터 프로세싱 도구 현황
  - 각 레이어간 특성을 반영하고 유기적 연계할 수 있는 도구

 가. 데이터 수집 도구
   - 고려 사항
      . 요소 : 수집 대상/환경, 데이터 형식(정형,비정형,반정형), 전송방법
      . 도구 : 확장성, 안정성, 유연성, 실시간성
   - 대표적 수집도구
      카프카, 플룸

 나. 배치 레이어 도구
   - 대표적 도구 : 맵리듀스, 테즈, 스파크, 플링크

 다. 스피드 레이어 도구
  - 네이티브 스트리밍과 마이크로 배치 모델로 구분
  - 네이티브 스트리밍 모델 : 실시간 모델
    (장점) 지연 감소.
    (단점) 내고장성 구성 복잡도 증가, 부하분산 기능 저하
  - 마이크로 배치 : 수 초내 데이터를 작은 단위로 묶어서 처리
    (장점) 내고장성 구성 용이, 고용량 처리, 부하 분산 단순화
    (단점) 배치 크기에 다른 지연 비례성

 라. 서빙 레이어 도구
 - 배치,스피드 레이어 프로세싱 결과를 저장하는 데이터베이스, 사용자 인터랙션을 수행하는 쿼리 엔진 부분으로 구성
 - 대표
  (데이터베이스) 엘리펀트DB, HBase, 카산드라
  (쿼리엔진) 하이브, 임팔라, 프레스토


   4. 결론 
   - 컴퓨팅 리소스 최적 제공 및 지연시간 최소화, 성능 개선을 위한 람다
   - 람다의 복잡성 개선 카파
   - 비즈니스 최적화 제타 아키텍처, 사물 인터넷 아키텍처 IoT-A


댓글 없음:

댓글 쓰기