[ 트렌드] [World Model 개념 정리 #2] World Model 접근법 비교 — Model-Based RL vs Video Generation vs JEPA
World Model 접근법 비교 — 세 갈래의 길
개념정리 시리즈 #2 — 10편의 논문에서 등장한 World Model 접근법을 3가지 축으로 정리합니다.
왜 비교가 필요한가?
"World Model"이라는 단어는 여러 분야에서 쓰이지만, 실제로는 서로 다른 세 가지 접근법이 존재합니다.
| Model-Based RL | Video Generation | Joint-Embedding (JEPA) | |
|---|---|---|---|
| 대표 모델 | Dreamer v1/v2/v3 | Sora, Genie | V-JEPA, I-JEPA |
| 핵심 아이디어 | 상상 속에서 행동을 연습 | 영상을 생성하며 물리 법칙 학습 | 표현 공간에서 미래 예측 |
| 비유 | 체스 고수의 수읽기 | 영화감독의 시나리오 상상 | 요약본으로 핵심만 예측 |
접근법 1: Model-Based RL (Dreamer 계열)
핵심 구조
-
RSSM (Recurrent State-Space Model)
-
h= 확정적 상태 (deterministic) — "확실히 아는 것" -
z= 확률적 상태 (stochastic) — "불확실한 것"
-
- 환경과 상호작용 → 모델 학습 → 꿈속에서 연습 → 정책 개선
강점
- 적은 데이터로 학습 가능 (sample efficient)
- 실제 환경 없이 정책 학습 가능
- Dreamer v3: 150개 이상의 환경에서 단일 알고리즘으로 작동
약점
- 모델 오차가 누적되면 "환각"에 빠짐
- 매우 복잡한 환경에서는 모델 정확도 한계
- 장기 예측이 어려움
접근법 2: Video Generation (Sora, Genie)
핵심 구조
-
Sora: Spacetime Patches + Diffusion Transformer (DiT)
- 영상을 시공간 패치로 분해 → 노이즈 제거로 생성
-
Genie: Latent Action Model
- 라벨 없는 영상에서 액션을 자동 추출
강점
- 풍부한 시각적 이해 (텍스처, 조명, 반사)
- 대규모 인터넷 영상 데이터 활용 가능
- 직관적인 "시뮬레이터" 느낌
약점
- 물리 법칙을 진정으로 이해하지 못함 (통계적 패턴)
- 긴 영상에서 일관성 붕괴 (~1분 한계)
- 대상 영속성 부재 (가려지면 사라짐)
- 엄청난 계산 비용
LeCun의 비판
"생성 모델은 픽셀 공간의 모든 디테일을 예측해야 하므로 본질적으로 비효율적이다."
접근법 3: Joint-Embedding (JEPA)
핵심 구조
- 핵심 원리: 픽셀이 아닌 표현 공간에서 예측
- Target Encoder → Context Encoder → Predictor
- 불필요한 디테일은 버리고 "의미"만 예측
강점
- 학습 효율 1.5~6배 향상 (vs VideoMAE)
- 라벨 없이 자기지도학습 가능
- 의미론적 이해에 집중 (노이즈 무시)
약점
- 아직 행동/제어와 연결 미완성
- Collapse 문제 (모든 입력이 같은 표현으로 수렴)
- 대규모 실증이 부족
왜 LeCun이 JEPA를 밀까?
- 뇌도 "모든 픽셀"을 예측하지 않음
- 추상적 표현 공간에서의 예측이 더 효율적
- 인간의 직관적 물리 이해와 유사
종합 비교: 9가지 능력 평가
| 능력 | Model-Based RL | Video Gen | JEPA |
|---|---|---|---|
| 물리 이해 | ★★★☆☆ | ★★☆☆☆ | ★★★★☆ |
| 행동 생성 | ★★★★★ | ★★☆☆☆ | ★★☆☆☆ |
| 시각적 풍부함 | ★★☆☆☆ | ★★★★★ | ★★☆☆☆ |
| 학습 효율 | ★★★★☆ | ★★☆☆☆ | ★★★★★ |
| 장기 예측 | ★★★☆☆ | ★★☆☆☆ | ★★★★☆ |
| 일반화 | ★★★☆☆ | ★★★★☆ | ★★★★☆ |
| 실시간 제어 | ★★★★★ | ★☆☆☆☆ | ★★★☆☆ |
| 에너지 효율 | ★★★☆☆ | ★☆☆☆☆ | ★★★★☆ |
| 뇌 유사성 | ★★★☆☆ | ★★☆☆☆ | ★★★★★ |
뇌와의 대응 관계
| AI 접근법 | 뇌 메커니즘 | 설명 |
|---|---|---|
| Model-Based RL | 해마 + 기저핵 | 에피소드 기억으로 미래 시뮬레이션 + 보상 기반 학습 |
| Video Generation | 시각 피질 V1→IT | 계층적 시각 처리와 패턴 생성 |
| JEPA | Predictive Coding | 피질의 하향식 예측 + 상향식 오류 교정 |
흥미로운 점: 뇌는 이 세 가지를 동시에 사용합니다. AI도 결국 통합이 필요할 것입니다.
미래 전망: 통합의 길
현재의 세 접근법은 각각 장단점이 뚜렷합니다.
가장 유력한 미래 시나리오:
- JEPA의 효율적 표현 학습 + Dreamer의 행동 생성 + Video Model의 풍부한 시각 이해
- 이것이 바로 LeCun이 제안한 자율 기계 지능(AMI) 아키텍처의 핵심
핵심 메시지: World Model은 하나의 기술이 아니라, 세계를 이해하려는 세 가지 다른 전략입니다. 어느 하나가 정답이 아니라, 이들의 통합이 진정한 세계 이해로 가는 길입니다.
📊 상세 비교표(XLSX)는 별도 파일로 제공됩니다. 다음 편: 뇌의 World Model — Predictive Coding, Free Energy Principle, 해마의 역할 통합 정리