에듀윌
·
PART B · 스파크
인메모리 100배
UC 버클리 2014 · MapReduce 대비 최대 100배
Spark —
인메모리 분산 처리
Spark
APACHE SPARK
한 줄 정의
분산
인메모리
처리 엔진. 핵심은
RDD
(Resilient Distributed Dataset) — 노드 장애 시 lineage로 자동 재계산.
구분
MapReduce
Spark
Tajo
처리
디스크 기반
인메모리
SQL on Hadoop
속도
느림
최대 100배
SQL 쿼리 빠름
개발
야후(미국)
UC 버클리(미국)
대한민국
합격 한 줄
'디스크 = MapReduce / 인메모리 = Spark / 한국 DW = 타조.'
Spark 5종(Core·SQL·Streaming·MLlib·GraphX)은 보기로 가끔 — 한 번만 훑어두기.