UC 버클리 2014 · MapReduce 대비 최대 100배

Spark — 인메모리 분산 처리

Spark

APACHE SPARK

한 줄 정의

분산 인메모리 처리 엔진. 핵심은 RDD(Resilient Distributed Dataset) — 노드 장애 시 lineage로 자동 재계산.

구분	MapReduce	Spark	Tajo
처리	디스크 기반	인메모리	SQL on Hadoop
속도	느림	최대 100배	SQL 쿼리 빠름
개발	야후(미국)	UC 버클리(미국)	대한민국

합격 한 줄

'디스크 = MapReduce / 인메모리 = Spark / 한국 DW = 타조.' Spark 5종(Core·SQL·Streaming·MLlib·GraphX)은 보기로 가끔 — 한 번만 훑어두기.