에듀윌 · PART B · 하둡 코어 ②
MapReduce
구글 2004 논문 · 분산 처리 모델 · 순서 불변

MapReduce — Map → Shuffle → Reduce

① Map입력을 (키,값) 쌍으로
② Shuffle같은 키끼리 묶어 정렬
③ Reduce같은 키 그룹 집계·합산
📖
사서 100명이 1만 권씩 나눠(Map) 같은 단어끼리 모아(Shuffle) 합산(Reduce)하면 100일 일이 1일에 끝난다. 단계마다 디스크에 쓰는 게 한계 → 이걸 극복한 게 Spark.
⚠️ MapReduce 함정 3종
'Map→Reduce 2단계' ❌ (Shuffle 빠짐) · 'Reduce 먼저' ❌ (이름 순서 그대로) · 'MapReduce는 인메모리' ❌ (디스크 기반 — 인메모리는 Spark).