[ 트렌드] [World Model 시리즈 #6] Dreamer v1~v3 — World Models의 h를 어떻게 고쳤는가
Dreamer v1~v3 — World Models의 h를 어떻게 고쳤는가
World Model 시리즈 여섯 번째 글입니다. 지난 글에서 "h 하나로 세상을 표현할 수 있을까?"라는 질문을 던졌습니다. Dreamer 시리즈는 그 질문에 대한 직접적인 답입니다.
World Models → Dreamer, 핵심 변화
한마디로 말하면:
World Models: 메모지 1장 (h)에 전부 적음
Dreamer: 메모지를 2장으로 나눔 (h + z)
이걸 RSSM (Recurrent State-Space Model)이라고 부릅니다.
RSSM — h를 둘로 쪼개다
World Models의 상태:
h = [모든 것이 섞인 256개 숫자]
Dreamer의 상태:
h = 확실한 것 (deterministic state)
"커브를 지났다, 속도가 80이다"
z = 불확실한 것 (stochastic state)
"다음에 비가 올 수도, 안 올 수도"
운전으로 비유하면:
h (확실한 기억):
"지금 고속도로 2차선이고, 3분 전에 IC를 지났다"
→ 확실한 사실
z (불확실한 예측):
"앞차가 차선 변경할 수도(40%), 안 할 수도(60%)"
→ 불확실한 가능성
World Models는 이 두 종류의 정보를 하나에 섞었는데, Dreamer는 명확히 분리한 겁니다.
두 번째 변화: Controller를 업그레이드
World Models: C = 선형 모델 + CMA-ES (진화 전략)
Dreamer: C = Actor-Critic (신경망 + gradient 학습)
World Models의 C는 곱셈 한 번이었습니다. Dreamer에서는 C도 신경망으로 바꾸고, 꿈 속 시뮬레이션에서 gradient를 직접 흘려서 학습합니다.
세 번째 변화: 꿈 학습 방식 개선
World Models: 꿈에서 CMA-ES로 탐색 (느림)
Dreamer: 꿈에서 직접 미분 (빠름)
Dreamer는 M이 만든 꿈 속에서 Actor(행동 선택)와 Critic(가치 평가)을 gradient로 직접 학습합니다.
V1 → V2 → V3 진화 과정
Dreamer V1 (2020): 기초 확립
- RSSM + Actor-Critic + 연속 행동 지원
- z: 연속 가우시안 분포
- 성과: 연속 제어 과제에서 뛰어난 성능
- 한계: 이산적 행동(게임 버튼) 처리 어려움
Dreamer V2 (2021): 이산 세계 정복
- 핵심 변화: z를 연속에서 이산 카테고리컬로 교체
- z: 32개 카테고리 변수 x 각 32개 값 = 1024가지 조합
- 성과: Atari 게임 55개에서 인간 수준 달성
- "몬스터가 쏜다/안 쏜다" 같은 이산 사건 표현 가능
Dreamer V3 (2023): 범용 AI 에이전트
- 핵심 변화: 안정화 트릭 모음 (symlog, 리턴 정규화, free bits)
- 150개 이상 다양한 과제에서 단일 설정으로 작동
- 마인크래프트에서 다이아몬드 채굴 성공!
마인크래프트 다이아몬드 — 왜 대단한가
마인크래프트에서 다이아몬드를 캐려면:
나무 캐기 → 작업대 → 나무 곡괭이 → 돌 캐기 →
돌 곡괭이 → 철 캐기 → 용광로 → 철 곡괭이 →
깊이 파기 → 다이아몬드 발견 → 채굴
수백~수천 스텝, 거의 보상 없음, 3D 오픈월드에서 픽셀만 보고 해내야 합니다. DreamerV3 이전에는 어떤 AI도 이걸 해내지 못했습니다.
World Models vs Dreamer 비교
| 항목 | World Models (2018) | Dreamer V3 (2023) |
|---|---|---|
| 상태 표현 | h 하나 (LSTM) | h + z 분리 (RSSM) |
| z 타입 | 연속 (VAE) | 이산 카테고리컬 |
| Controller | 선형 모델 | Actor-Critic 신경망 |
| 학습 방법 | CMA-ES (진화) | Gradient (미분) |
| 환경 규모 | 2D 게임 2개 | 150+ 다양한 과제 |
| 최고 성과 | CarRacing 906점 | 마인크래프트 다이아몬드 |
| 하이퍼파라미터 | 과제별 조정 | 단일 설정 범용 |
뇌과학 연결
RSSM의 h (확정적) <-> 뇌의 의미 기억 (사실, 지식)
RSSM의 z (확률적) <-> 뇌의 에피소드 기억 (경험, 불확실성)
Actor-Critic <-> 기저핵의 보상 학습 시스템
Dream 학습 <-> 해마의 수면 중 경험 재생
남은 한계
- 여전히 순차적 — 과거 전체를 한 번에 참조하지 못함
- 언어 이해 없음 — 텍스트 목표를 줄 수 없음
- 실세계 전이 미검증 — 시뮬레이션에서만 검증
- 단일 에이전트 — 협력/경쟁 상황 미지원
이 한계들이 JEPA, Sora, Genie로 이어집니다.
참고 링크
다음 글에서는 LeCun의 JEPA를 다룹니다. Dreamer가 같은 틀에서 부품을 개선했다면, JEPA는 "애초에 이미지를 복원할 필요가 있었나?"라고 질문을 던집니다.