[ 트렌드] [World Model 시리즈 #19] Sora — 영상 생성은 세계 시뮬레이션이 될 수 있는가?

관리자 Lv.1
03-01 22:09 · 조회 14 · 추천 0

Sora란 무엇인가?

OpenAI가 2024년 2월에 공개한 Sora는 텍스트 설명만으로 최대 1분 길이의 고화질 영상을 생성하는 모델입니다. 그런데 OpenAI는 이걸 단순히 "영상 생성기"가 아니라 "세계 시뮬레이터(World Simulator)"라고 불렀습니다.

이 주장이 왜 중요하고, 과연 맞는 말인지 — 이것이 오늘의 핵심 질문입니다.


Sora의 작동 원리

1단계: 영상을 압축한다 (시공간 압축)

Sora는 먼저 원본 영상을 잠재 공간(latent space)으로 압축합니다.

원본 영상 (1080p, 60fps, 1분)
    ↓ 시공간 오토인코더
잠재 표현 (공간적으로 축소 + 시간적으로도 축소)
    ↓
훨씬 작은 3D 덩어리

비유: 1시간짜리 영화를 3분 예고편으로 압축하는 것과 비슷합니다. 핵심 정보는 유지하면서 크기를 대폭 줄입니다.

2단계: 시공간 패치로 자른다 (Spacetime Patches)

압축된 영상을 시공간 패치라는 작은 조각으로 나눕니다. 이것이 Sora의 핵심 혁신입니다.

[기존 방식 - 이미지 패치]
사진을 바둑판처럼 잘라서 2D 조각으로 나눔

[Sora 방식 - 시공간 패치]
영상을 3D 큐브로 잘라서 "공간 + 시간"을 함께 담은 조각으로 나눔

시공간 패치 = 짧은 시간 동안의 작은 영역
              (예: 0.1초 동안의 32x32 픽셀 영역)

비유: 일반 사진을 타일처럼 자르는 게 기존 방식이라면, Sora는 영상을 작은 동영상 큐브로 자르는 것입니다. 각 큐브에 공간 정보와 시간 변화가 함께 담겨 있습니다.

3단계: Diffusion Transformer로 생성한다

이제 핵심 — 노이즈에서 영상을 만들어냅니다.

[Diffusion 과정]

순방향: 깨끗한 영상 → 노이즈를 점점 추가 → 완전한 노이즈
역방향: 완전한 노이즈 → 노이즈를 점점 제거 → 깨끗한 영상

텍스트 "고양이가 잔디밭에서 뛰는 영상"
    ↓ 조건으로 입력
완전한 노이즈 → [Transformer가 노이즈 제거] → 고양이 영상!

여기서 기존 모델들은 U-Net이라는 구조를 썼지만, Sora는 Transformer를 사용합니다. 이것을 DiT (Diffusion Transformer)라고 합니다.

비유: U-Net이 "정해진 크기의 캔버스에만 그리는 화가"라면, DiT는 "어떤 크기의 캔버스든 그릴 수 있는 화가"입니다. 덕분에 Sora는 다양한 해상도, 화면비, 길이의 영상을 자유롭게 생성합니다.


Sora vs Genie: 같은 것 아닌가?

둘 다 영상을 만들지만, 근본적으로 다릅니다.

Sora Google Genie
목적 영상 "생성" 세계 "상호작용"
입력 텍스트 → 영상 이미지 + 행동 → 다음 프레임
사용자 개입 없음 (영상만 출력) 실시간 조작 가능
핵심 기술 Diffusion Transformer Autoregressive + Action Model
비유 영화 감독 게임 엔진

핵심 차이: Sora는 "영화를 만들고" Genie는 "게임 세계를 만듭니다." Sora의 영상은 이미 정해진 스토리를 재생하는 것이고, Genie의 세계는 사용자 행동에 따라 달라집니다.


"세계 시뮬레이터"라는 OpenAI의 주장

OpenAI는 Sora를 소개하면서 놀라운 주장을 했습니다:

"스케일링(규모 확대)만으로 물체의 영속성 같은 능력이 자연스럽게 나타났다"

즉, 물리 법칙을 직접 가르치지 않았는데, 데이터를 많이 보여주니까 물리를 "이해"하는 것처럼 보이는 행동이 나타났다는 것입니다.

실제로 Sora가 보여준 능력들:

✅ 빛의 반사와 그림자가 일관됨
✅ 카메라가 움직여도 3D 공간이 유지됨
✅ 물체가 화면 밖으로 나갔다 돌아와도 존재함 (대상 영속성)
✅ 캐릭터의 동작이 자연스럽게 이어짐

Sora 2의 개선 (2025)

Sora 2에서는 더 발전했습니다:

  • 농구 선수가 슛을 놓치면 백보드에서 리바운드
  • 조명이 프레임 간에 일관되게 유지됨
  • 중력과 운동량의 법칙을 직관적으로 따름

하지만 — 진짜 "이해"하는 것일까?

여기서 큰 논쟁이 있습니다. LeCun을 포함한 많은 연구자들이 반대합니다.

Sora가 실패하는 순간들

❌ 유리잔이 깨지는 물리를 정확히 못 함
❌ 할머니가 촛불을 불면 — 불꽃이 그대로 있음
❌ 개미를 6개 다리가 아닌 4개 다리로 그림
❌ 의자가 갑자기 공중에서 나타남
❌ 체조 선수의 관절이 비정상적으로 꺾임
❌ 음식을 먹어도 음식 상태가 안 변함

LeCun의 비판

LeCun은 직접적으로 이렇게 말했습니다:

"생성 모델은 세계 모델을 만드는 데 있어 막다른 길(dead end)이다."

그의 논리:

Sora의 접근:  픽셀을 생성한다 → 물리를 흉내낸다
JEPA의 접근:  표현을 학습한다 → 물리를 이해한다

Sora:  "이 장면은 이렇게 보여야 해" (외형 재현)
JEPA:  "이 상황에서 이런 일이 일어나야 해" (인과 이해)

비유: Sora는 물리 교과서의 그림만 완벽히 베끼는 학생입니다. 그림은 정확하지만, "왜 공이 포물선으로 날아가는지" 물어보면 대답 못 합니다. JEPA는 그림은 못 그리지만 공식을 이해하는 학생입니다.


Sora가 World Model에서 차지하는 위치

접근법 대표 모델 핵심 능력 한계
이해 중심 JEPA, V-JEPA 세계의 구조를 파악 생성 불가
생성 중심 Sora, Genie 그럴듯한 세계를 만듦 진짜 이해 못 함
행동 중심 RT-2, Dreamer 실제로 세상에 개입 시각적 상상력 부족

진짜 World Model = 이해 + 생성 + 행동

현재는 각각이 따로 발전하고 있지만, 궁극적으로는 하나로 합쳐져야 합니다.

미래의 통합 World Model:

V-JEPA의 이해력
  + Sora의 생성력
  + RT-2의 행동력
  + Hippocampus의 기억력
  ─────────────────────
  = 진짜 세계를 이해하는 AI

Sora가 던지는 근본적 질문

Sora 논쟁의 본질은 이것입니다:

"충분히 정교한 생성은 이해와 구별할 수 없는가?"

관점 1 (OpenAI): 
  충분히 스케일업하면 → 물리 이해가 "자연스럽게 나타난다"
  → 생성 = 이해의 한 형태

관점 2 (LeCun):
  아무리 스케일업해도 → 픽셀 생성은 인과 이해가 아니다  
  → 생성 ≠ 이해, 표현 학습이 먼저다

관점 3 (절충):
  생성은 "약한 이해"를 포함하지만
  → 진짜 World Model에는 부족하다

이 논쟁은 아직 결론이 나지 않았습니다. 하지만 한 가지 확실한 건 — Sora가 보여준 가능성과 한계 모두가 World Model 연구의 방향을 결정하는 데 핵심적인 증거라는 것입니다.


다음 시리즈(마지막)에서는 Hippocampus & Episodic Future Thinking을 다룹니다 — 뇌가 어떻게 경험을 기억하고, 미래를 상상하는지. 이것이 World Model의 마지막 퍼즐입니다.

💬 0 로그인 후 댓글 작성
첫 댓글을 남겨보세요!